![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
zoe_cf
这个作者很懒,什么都没留下…
展开
-
WinPython-64-2.7安装MySQLdb包
环境:WinPython-64bit-2.7.10.3安装:MySQLdb个人建议不用使用带.exe或者.taz.zip安装,因为WinPython环境下Python不在注册表中关于这个问题,我是这么解决的:访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#mysql-python下载这个MySQl-Python这个包然后打开原创 2016-05-01 10:37:06 · 2318 阅读 · 0 评论 -
IMDB 数据集探索
代码参考:https://www.tensorflow.org/tutorials/keras/basic_text_classificationhttps://my.oschina.net/u/3800567/blog/2887156代码存放:https://colab.research.google.com/drive/1vpo6LSRfvnUj3G4JGEKsqGCl6HGevI...原创 2019-06-21 15:42:34 · 3693 阅读 · 1 评论 -
常见分类性能度量指标
常见分类性能度量指标准确率精确率召回率F1 值ROC曲线AUC曲线PR曲线常见分类性能度量指标再将这几个指标之前,先讲几个基础概念真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假正(False Negative , FN):被模型预测为负的正样本。真负(True ...原创 2019-06-21 16:29:46 · 4337 阅读 · 2 评论 -
Django: ConnectionAbortedError: [WinError 10053] An established connection was aborted by the softwa
管理员权限打开cmdC:\Windows\system32:chcp 1252来源于:https://stackoverflow.com/questions/54465300/django-connectionabortederror-winerror-10053-an-established-connection-was-a原创 2019-06-12 10:27:32 · 2567 阅读 · 0 评论 -
文本分类
1、朴素贝叶斯原理:理论上,概率模型分类器是一个条件概率模型:独立变量C有若干类别,条件依赖于若干特征变量,但问题在于如果特征数量n的维度较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。 根据贝叶斯公式有以下式子:或者,这样表达比较简洁明了:其中,为先验概率,为后验概率;可以这么理解,再不知道需要预测的样本任...原创 2019-07-01 21:34:52 · 575 阅读 · 0 评论 -
文本分词
1. 基本文本处理技能 英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好且单字和非字...原创 2019-06-23 23:21:43 · 1440 阅读 · 0 评论 -
文本特征选择
一、文本特征的特点1、特征项能够区分文章的不同2、特征项能够表达该文章的信息3、特征的个数选择不能太多二、特征选择的方法1、TF-IDFFrequency-Inverse Document Frequency:词频(TF)-逆文档频率(IDF),其中词频(TF)= 某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)= log(语料库的文档总数 /...原创 2019-06-27 20:52:32 · 1953 阅读 · 0 评论 -
卷积神经网络
1 卷积运算 在泛函分析中,卷积是通过两个函数 f 和 g 生成第三个函数的数学运算,表征函数 f 和经过翻转,平移的 g 的乘积函数围成的曲边梯形的面积。 连续函数卷积: 设 f(x),g(x) 是 R 上两个可积函数,作积分: ...原创 2019-07-09 18:20:48 · 412 阅读 · 0 评论 -
文本表示
文本向量化是文本表示的一种重要方式,其中词袋 Bag of Words(BOW) 和词向量Word Embedding是最常见的两种类型。词袋模型: 是n-gram语法模型的特例1元模型。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BOW使用一组无序的单词(words)来表达一段文字或一个文档。常见表示方法:one-hot...原创 2019-07-05 23:16:51 · 357 阅读 · 0 评论 -
Attention原理
1 Attention 基本原理 神经网络中可以存储的信息量称为网络容量(Network Capacity)。一般来 讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂 度成正比。如果要存储越多的信息,神经元数量就要越多或者网络要越复杂,进 而导致神经网络的参数成倍地增加。 我们人脑的生物神经网络同样存在网络容量问题,人脑中的工作记忆大概 只有几...原创 2019-07-15 18:16:10 · 960 阅读 · 0 评论 -
神经网络基础
人工神经网络 人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神 经学启发的数学模型。这些模型主要是通过对人脑的神经元网络进行抽象,构 建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生 物神经网络。在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Mod...原创 2019-07-06 18:03:31 · 504 阅读 · 0 评论 -
BERT语言模型
1 Transformer原理文章:《Attention Is All You Need》模型架构图如下:transformer的结构由encoder编码和decoder解码组成。1.1 EncoderEncoder组件部分由一堆Layer(可以理解为编码器)构成(论文中是将6个Layer叠在一起)。Decoder解码组件部分也是由相同数量(与编码器对应)的解码器(deco...原创 2019-07-18 17:31:54 · 3516 阅读 · 1 评论 -
随机森林算法梳理
Content1、概念1.1 个体学习1.2 集成学习1.2.1 集成学习关键1.2.2 个体学习器1.2.3 结合策略1.3 集成方法1.3.1 Bagging1.3.2 Boosting1.3.3 Stacking1.3.4 其他集成方法2、随机森林2.1 随机森林思想2.2 优缺点2.3、应用以及推广3、sklearn参数1...原创 2019-04-03 16:08:05 · 827 阅读 · 0 评论 -
Xgboost算法梳理
目录1 算法思想2 算法原理3 损失函数4 分裂结点算法5 正则化6 对缺失值处理7 优缺点8 应用场景9 sklearn参数 官方文档参数调整注意事项python 包介绍10 参考文章1 算法思想该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得...原创 2019-04-10 21:48:11 · 223 阅读 · 0 评论 -
GBDT算法梳理
Table of Contents1 GBDT概述2 前向分布算法2.1 加法模型2.2 前向分布算法2.2.1 思想2.2.2 策略2.2.3 加法模型求解3 损失函数4 负梯度拟合5 回归6 GBDT分类6.1 二分类6.2 多分类7 正则化8 优缺点9 sklearn参数10 应用场景1 GBDT概述GBDT(Gr...原创 2019-04-07 21:44:35 · 196 阅读 · 0 评论 -
python numpy使用
安装:sudo apt-get install Python-numpy使用:import numpy as np1.建立矩阵a1=np.array([1,2,3],dtype=int) #建立一个一维数组,数据类型是int。也可以不指定数据类型,使用默认。几乎所有的数组建立函数都可以指定数据类型,即dtype的取值。a2=np.array([[1,2,转载 2016-04-21 22:19:39 · 380 阅读 · 0 评论 -
python json串插入mysql
import pymysql as dbmm = {} #json串tsql = """INSERT INTO A1_enterprise(full_name,team_info) values('test2','{json}')"""sql = tsql.format(json=db.escape_string(mm))原创 2017-07-31 10:48:52 · 3332 阅读 · 0 评论 -
python 负数时间戳转换/转换1970年之前的时间戳
import datetimetimestamp = -1893436000print datetime.datetime(1970, 1, 1) + datetime.timedelta(seconds=timestamp)原创 2017-08-09 14:00:08 · 6497 阅读 · 0 评论 -
python pandas to_sql 的用法
网上使用pymysql或者MySQLdb,只能说是错误的,文档里边提供了说明跟一个例子说明:例子:所以pandasto_sql的用法如下:import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:...原创 2017-10-11 16:43:50 · 49611 阅读 · 5 评论 -
python pandas to_sql 中文乱码问题
使用DataFrame.to_sql,出现中文乱码的问题conn = create_engine('mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8') 解决不了中文问题我碰到的原因是因为数据库的默认编码不是utf-8,所以是直接修改数据库默认编码使用的是navicat,打开数据原创 2017-10-12 09:28:32 · 7657 阅读 · 2 评论 -
python去除script标签及里面的内容
soup = BeautifulSoup(content.content,'lxml')text = soup.find('div',{'class':'content'}).get_text().strip()print textvar ent_common_pic_1 = { "data": { "item": [ { "title": "《快乐大本营》杨紫", "img_url": "htt原创 2017-05-27 11:59:27 · 9597 阅读 · 0 评论 -
python mysql 1366, u"Incorrect string value: '\\xF0\\x9F\\x98\\x8A' for column 'content' at row 1"
comment['content'] = '傻大个数据的护额我' #随意写的一些内容#插入数据库的时候,会提示错误的字符值#comment['content']是插入数据库的值#修改后的代码points = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')points.sub(u'', content[y])comment['content'] = poi原创 2017-05-27 12:34:51 · 997 阅读 · 0 评论 -
python 已知平行四边形三个点,求第四个点
import numpy as np#已知平行四边形三个点,求第四个点#计算两点之间的距离def CalcEuclideanDistance(point1,point2): vec1 = np.array(point1) vec2 = np.array(point2) distance = np.linalg.norm(vec1 - vec2) return...原创 2018-08-14 11:05:02 · 3813 阅读 · 0 评论 -
gcc: error trying to exec 'cc1plus': execvp: 没有那个文件或目录 error: command 'gcc' failed with exit status
根据网上查找的答案,安装了相关的依赖包,问题还是存在:网上答案:yum install gcc libffi-devel python-devel openssl-devel因为要安装的pyltp,底层的语言是C++,所以还需要安装一个依赖包:yum install gcc-c++ ...原创 2018-08-08 14:16:06 · 2328 阅读 · 0 评论 -
pyltp win10安装失败 fatal error C1083: Cannot open include file: 'iostream': No such file or directory
https://github.com/HIT-SCIR/pyltp/issues/94 在这个里边找到解决方法直接使用已编译好的whl文件,在https://www.lfd.uci.edu/~gohlke/pythonlibs/未找到此文件,图片上面直接给出了下载地址:pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-c...原创 2018-08-08 17:50:11 · 823 阅读 · 0 评论 -
一个学习机器学习的好网站
http://www.apachecn.org/原创 2018-08-23 09:38:17 · 3446 阅读 · 0 评论 -
国内算法竞赛网址收集
树愿:http://www.datadreams.org DC竞赛:http://www.dcjingsai.com/ 阿里天池:https://tianchi.aliyun.com/ 京东JDATA:https://jdata.jd.com/ DataFountain:https://www.datafountain.cn/ Kesci:https://www.kesci.com/ho...原创 2018-09-04 14:07:25 · 13865 阅读 · 3 评论 -
循环和递归神经网络
1 循环神经网络 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过...原创 2019-07-12 16:06:42 · 17487 阅读 · 1 评论