自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuihupo的博客

主要方向推荐系统等数据挖掘技术,现进军自然语言处理学习

原创 逻辑回归算法梳理

【任务2 - 逻辑回归算法梳理】时长:2天 1、逻辑回归与线性回归的联系与区别 2、 逻辑回归的原理 3、逻辑回归损失函数推导及优化 4、 正则化与模型评估指标 5、逻辑回归的优缺点 6、样本不均衡问题解决办法 7. sklearn参数 参加了Datawhale的活动,虽然在机器学习有一定的实践和...

2019-04-01 21:29:29

阅读数 90

评论数 0

原创 线性回归知识总览

博文内容为 机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证 线性回归的原理 线性回归损失函数、代价函数、目标函数 优化方法(梯度下降法、牛顿法、拟牛顿法等) 线性回归的评估指标 sklearn参数详解 机器学习的一些概...

2019-03-29 18:13:35

阅读数 69

评论数 0

原创 CSDN Markdown编辑下插入公式

使用$将公式左右包括起来,键入的式子将以公式格式显示 $公式$ 句中插入, 这是一个演示y^\hat{y}y^​ $换行居中插入换行居中插入换行居中插入$ 这是一个演示y^\hat{y}y^​ 原始语法如下: $公式$ 句中插入, 这是一个演示$\hat{y}$ $$换行居中插入$$ 这是一...

2019-03-28 18:14:30

阅读数 61

评论数 0

原创 Python小点dian儿: 读取一个目录下目录和文件

目录   代码一: 输出文件目录相关内容 代码二:输出一个目录下所有文件名字(第一层) 代码三:返回当前路径下所有层的文件路径列表 代码四:依次从内层到外层获取当前路径下文件(改造自代码三),也可直接代码一获取 代码五:获取当前路径下一层指定后缀文件列表(多层可改造代码三) 代码一:...

2019-01-10 21:10:27

阅读数 138

评论数 0

原创 小点dian儿:pandas混淆矩阵

import pandas as pd  pd.crosstab(y_Test,prediction, rownames=["lable"],colnames=["predict"]) y_Test,真实值 predic...

2018-12-28 10:13:01

阅读数 195

评论数 0

原创 小点dian儿:Python大文件读取、文件拆分,读取部分数据

目录 pandas参数说明 文件部分读取参数 文件成块读取参数 成块读入,并写入其他文件。 官方文档 pandas参数说明 pandas在read_csv或 read_table有几个个参数 文件部分读取参数 nrows : int, default None Number ...

2018-12-27 15:34:38

阅读数 838

评论数 0

转载 python 删除文件首行或指定行(修改文件)

网上的大多数答案也是,读入,写入的过程,总结如下 python修改文件(fileinput) 链接 https://blog.csdn.net/u013398398/article/details/53583596 上网查了好多方法都是将文件一行一行都进来,然后新开一个文件指针,将文件再一行...

2018-12-26 15:33:20

阅读数 6547

评论数 1

原创 python训练work2vec词向量实例(python gensim)

前期工作可参阅: 1.python work2vec词向量训练可参考 https://blog.csdn.net/shuihupo/article/details/85156544词向量训练 2.word2vec词向量中文语料处理(python gensim word2vec总结) 可参考 h...

2018-12-23 21:03:12

阅读数 2012

评论数 3

原创 python work2vec词向量应用方法汇总

目录 前期工作可参阅: work2vec词向量应用汇总(词语相似度、集合相似度、词向量计算等) 1.获取每个词的词向量 2支持词语的加减运算。(实际中可能只有少数例子比较符合) 3计算两个词之间的余弦距离 4计算余弦距离最接近“word”的10个词,或topn个词 5计算两个集合之间...

2018-12-23 20:44:27

阅读数 686

评论数 0

原创 python 第三方包的安装位置

键盘 win +R调出 cmd 在cmd中输入一个已经安装过的包的命令,它就会显示安装的位置。比如  pip install pandas  它就显示你的安装包目录了。  手动安装第三方详见教程python 安装.whl、egg、zip、tar.gz安装包...

2018-12-21 20:58:20

阅读数 1619

评论数 0

原创 python训练work2vec词向量(python gensim)

目录 看了很多文章,对与word2vec语料的处理没有那么清晰,现在写下自己处理流程,方便入手的小伙伴,望大家使用的过程中,少走弯路。 训练语料格式 模型训练 1.安装gensim 2.模型训练 3.模型保存 3.1模型训练保存与加载1(模型可继续训练) 3.1.1模型继续训练 ...

2018-12-21 17:59:10

阅读数 4192

评论数 6

原创 word2vec词向量中文语料处理(python gensim word2vec总结)

目录 中文语料处理 法一:语料处理为列表 法二:语料是文件(处理为迭代器) 对一个目录下的所有文件生效(法1)  对一个目录下的所有文件生效(法2) class : gensim.models.word2vec.PathLineSentences 对于单个文件语料,使用LineSen...

2018-12-21 15:41:45

阅读数 4156

评论数 3

原创 python小点dian儿:去除txt/json重复行

目录 去除重复行(法一:利用内置set) 去除重复行(法二:建造list或set检查是否已存在) 按行写入json/txt文件 查看文件行数长度 factfile_path  为json文件 casefile_path 为txt文件 去除重复行(法一:利用内置set) 先了解Pyt...

2018-12-20 22:12:52

阅读数 142

评论数 0

原创 python json

json.load(filename) json.loadds(string)

2018-12-20 17:22:05

阅读数 41

评论数 0

原创 python读取文件 \ufeff 问题

df_ID= pd.read_csv(IDfile_path,encoding= 'utf-8',sep = ',',header=None) ID_list= list(df_ID.ix[:,0]) print(ID_list) 我的原始输出: ['\ufeffee...

2018-12-16 19:51:44

阅读数 1442

评论数 0

原创 Python小点dian儿:sort疑问大全

遇到了就刨根问题,补补python基础吧。 数据会清理,特征会派生,模型会跑,参数能调,但始终还是有漏洞,或者术语不可名状。 python 去重,并保持列表原来顺序list_a = ['cc', 'bbb', 'dda','bbbb', 'cc', 'sss',  'fase'] list_n...

2018-12-04 17:55:14

阅读数 64

评论数 0

原创 解决xgboost异常AttributeError: 'DMatrix' object has no attribute 'handle'

xgboost异常AttributeError: 'DMatrix' object has no attribute 'handle'  sys:1: DtypeWarning: Columns (65) have mixed types. Specify dtype option on imp...

2018-10-21 10:41:56

阅读数 867

评论数 0

原创 python小点dian儿:使用merge还是join

合并():要注意使用merge还是join #merge是因为两个合并的对象,有相同的列,merge以这些相同的列为索引进行合并,默认内连接('inner'join),可通过参数how来设置左连接,右连接,全连接其他链接方式。下面的栗子按照索引合并,就会出现两个sorce,不可以join #jo...

2018-10-20 16:42:17

阅读数 383

评论数 3

原创 日常操作测试(杂)

import pandas as pd df = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c'],&quo...

2018-10-17 17:28:47

阅读数 47

评论数 0

原创 小点dian儿:pandas数据存入文件,行索引处理

小点dian儿:存入数据的时候,我们希望对数据在系统的行名 保存或者不保存 参数:index=None:(类似,header=False不保存列名) 在我们不进行如上的设计的时候,系统或分配默认的行index:0,1,2..在我们将运行结果存入文件,如果不加以设置,将会把这一index列,存入...

2018-10-10 22:26:08

阅读数 56

评论数 0

提示
确定要删除当前文章?
取消 删除