Python
Joker_xun
这个作者很懒,什么都没留下…
展开
-
数据处理
1. 数据标准化对应的代码:标准差能反映一个数据集的离散程度。方差单位和数据的单位不一致,没法使用。标准差和数据的单位一致,使用起来方便。数据集:[2、3、4、5、6]1:求平均数 (2+3+4+5+6)/5 = 20/5 = 42:求每个数与平均值 的差平方 的和 (2-4)^2 + (3-4)^2 + (4-4)^2 + (5-4)^2 + (6-4)^2...原创 2018-10-11 21:16:14 · 165 阅读 · 0 评论 -
逻辑回归通用模板
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # 为了看模型在没有见过数据集上的表现,随机拿出数据集中30%的部分做测试# 为了追求机器学习和最优化算法的最佳性能,我们将特征缩放from sklearn.preprocessing import Standard...原创 2018-10-18 22:42:39 · 266 阅读 · 0 评论 -
Python-文件的导入
1.CSV文件的导入 i = pandas.read_csv("D:/Downloads/ai_challenger_sentiment_analysis_trainingset_20180816/train.csv") print(i.describe()) print(i.sort_values(by="id"))利用pandas.read_...原创 2018-10-09 17:13:09 · 388 阅读 · 1 评论 -
python中常用的模块
接下来,我会根据学习逐一进行笔记记载,希望自己坚持下来原创 2018-10-09 17:17:06 · 192 阅读 · 0 评论 -
matplotlib模块的基础使用
通过调用plot(x , y , ‘ 展现形式 ’)函数,实现数据的可视化,表现为散点图,折线图形式展现形式处,‘ ’,可在里面填写图线线条表现形式,图形颜色,或者图形展现的格式其颜色对应图如下:其线条格式对应如下图:点的形状对应如下图所示:颜色,线条,点的形状表现形式可叠加使用import matplotlib.pylab as pylimport numpy as p...原创 2018-10-09 18:41:16 · 532 阅读 · 0 评论 -
matplotlib图标正常显示中文方法
为了在图表中能够显示中文和负号等,需要下面一段设置:import matplotlib mplmpl.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签mpl.rcParams['axes.unicode_minus']=False #用来正常显示负号...原创 2018-10-17 18:20:36 · 1581 阅读 · 1 评论 -
jie ba分词
1 .cut()函数,将句子进行分词.cut(待处理的句子,处理时使用的模式)全模式jieba.cut(sentence,cut_all =True):分的词比较全,但词汇可能有叠加精准模式jieba.cut(sentence,cut_all=False),与全模式相对立,词汇无叠加搜索引擎模式jieba.cut_for_search(语句)对于输出,需要通过循环将其遍历出来fo...原创 2018-10-26 15:04:11 · 647 阅读 · 0 评论 -
文本相似度分析实例
1.读取文档2.对计算的文档进行分词3.对文档进行整理成指定格式,方便后续进行计算4.计算出词语的频率5.【可选】对频率低的词语进行过滤6.通过语料库建立词典7.加载要对比的文档8.将要对比的文档通过doc3bow转换成稀疏向量9.对稀疏向量进行进一步处理10.将新语料库通过tfidfmodel进行处理,得到tfidf11.通过token2得到特征数12.计算稀疏矩阵相似度,...原创 2018-10-26 22:38:15 · 2739 阅读 · 0 评论 -
python中常用的九种预处理方法分享
转载1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。sklearn.preprocessing.scale(X)一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标...转载 2018-11-02 15:56:07 · 368 阅读 · 0 评论