自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuihupo的博客

主要方向推荐系统等数据挖掘技术,现进军自然语言处理学习

  • 博客(12)
  • 资源 (6)
  • 收藏
  • 关注

原创 小点dian儿:pandas混淆矩阵

import pandas as pd pd.crosstab(y_Test,prediction, rownames=["lable"],colnames=["predict"])y_Test,真实值prediction,预测值rownames=["lable"],行名colnames=["predict"],列名

2018-12-28 10:13:01 1598

原创 小点dian儿:Python大文件读取、文件拆分,读取部分数据

目录pandas参数说明文件部分读取参数文件成块读取参数成块读入,并写入其他文件。官方文档pandas参数说明pandas在read_csv或 read_table有几个个参数文件部分读取参数nrows : int, default NoneNumber of rows of file to read. Useful for reading pieces ...

2018-12-27 15:34:38 6525

转载 python 删除文件首行或指定行(修改文件)

网上的大多数答案也是,读入,写入的过程,总结如下python修改文件(fileinput) 链接 https://blog.csdn.net/u013398398/article/details/53583596上网查了好多方法都是将文件一行一行都进来,然后新开一个文件指针,将文件再一行行写进新文件里。 感觉不是太好,看到这个fileinput的库,发现大同小异,不过有一点就是可以在原...

2018-12-26 15:33:20 43622 10

原创 python训练work2vec词向量实例(python gensim)

前期工作可参阅:1.python work2vec词向量训练可参考 https://blog.csdn.net/shuihupo/article/details/85156544词向量训练2.word2vec词向量中文语料处理(python gensim word2vec总结) 可参考 https://mp.csdn.net/postedit/85162237汇总数种语料加载方式。之前的...

2018-12-23 21:03:12 9595 13

原创 python work2vec词向量应用方法汇总

目录前期工作可参阅:work2vec词向量应用汇总(词语相似度、集合相似度、词向量计算等)1.获取每个词的词向量2支持词语的加减运算。(实际中可能只有少数例子比较符合)3计算两个词之间的余弦距离4计算余弦距离最接近“word”的10个词,或topn个词5计算两个集合之间的余弦似度6.选出集合中不同类的词语看了很多资源,总感觉work2vec词向量应用总结得不全面...

2018-12-23 20:44:27 3140

原创 python 第三方包的安装位置

键盘 win +R调出 cmd在cmd中输入一个已经安装过的包的命令,它就会显示安装的位置。比如 pip install pandas 它就显示你的安装包目录了。 手动安装第三方详见教程python 安装.whl、egg、zip、tar.gz安装包...

2018-12-21 20:58:20 10539

原创 python训练work2vec词向量(python gensim)

目录看了很多文章,对与word2vec语料的处理没有那么清晰,现在写下自己处理流程,方便入手的小伙伴,望大家使用的过程中,少走弯路。训练语料格式模型训练1.安装gensim2.模型训练3.模型保存3.1模型训练保存与加载1(模型可继续训练)3.1.1模型继续训练3.2模型训练保存与加载2(模型不可继续训练)模型使用汇总(词语相似度、集合相似度、词向量计算等)...

2018-12-21 17:59:10 22321 9

原创 word2vec词向量中文语料处理(python gensim word2vec总结)

目录中文语料处理法一:语料处理为列表法二:语料是文件(处理为迭代器)对一个目录下的所有文件生效(法1) 对一个目录下的所有文件生效(法2)class : gensim.models.word2vec.PathLineSentences对于单个文件语料,使用LineSentence语料库获取语料word2vec中文语料处理及模型训练实践python gensi...

2018-12-21 15:41:45 35491 17

原创 python小点dian儿:去除txt/json重复行

目录去除重复行(法一:利用内置set)去除重复行(法二:建造list或set检查是否已存在)按行写入json/txt文件查看文件行数长度factfile_path  为json文件casefile_path 为txt文件去除重复行(法一:利用内置set)先了解Python splitlines()用法str.splitlines([keepends])按照行...

2018-12-20 22:12:52 1766

原创 python json

json.load(filename)json.loadds(string)

2018-12-20 17:22:05 246

原创 python读取文件 \ufeff 问题

df_ID= pd.read_csv(IDfile_path,encoding= 'utf-8',sep = ',',header=None) ID_list= list(df_ID.ix[:,0]) print(ID_list)我的原始输出:['\ufeffee170175-35de-43b8-ad92-a70600b6da3a', '266d79c7-4ca9...

2018-12-16 19:51:44 3670

原创 Python小点dian儿:sort疑问大全

遇到了就刨根问题,补补python基础吧。数据会清理,特征会派生,模型会跑,参数能调,但始终还是有漏洞,或者术语不可名状。python 去重,并保持列表原来顺序list_a = ['cc', 'bbb', 'dda','bbbb', 'cc', 'sss',  'fase']list_new = list(set(list_a))list_new.sort(key = list_a.i...

2018-12-04 17:55:14 263

msra(NER)命名实体识别语料

采用如下标注方法: nr人名 ns 地名   nt 机构团体    “团”的声母为t,名词代码n和t并在一起。 nz 其他专名 eg:红军/nt 将领/o 孙毅/nr 将军/o 为/o 我们/o 收藏/o 的/o 二十余册/o (/o 1937年/o —/o 1945年/o )/o 晋察冀抗日根据地/ns 出版物/o

2018-11-26

中文命名实体识别语料

BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。

2018-11-26

XGBoost模型原理及其在各大竞赛中的优异表现

XGBoost模型原理及其在各大竞赛中的优异表现,csdn的视频。

2018-08-11

pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.wh

来源:http://mlln.cn/2018/01/31/pyltp在windows下的编译安装/ 包含:pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2018-08-10

jpype1for python3.5

JPype1_py3-0.5.5.2-cp35-none-win_amd64.whl (md5)。 使用pip install wheel 安装wheel成功后,再次安装该文件 pip install ****.whl 即可。主要用于手动安装python3.5对应的jpype1。网上很多地址是LFD提供的代码包链接,但是发现18.3月我下载的一天链接不能下载了。本人搜索能力不行,没有直接找官网一直在博客里搜索浪费半天时间,现把找到的也亲测有效的公布在这里,也可以自行在官网下载。

2018-03-27

python 数据挖掘概念、方法与实践代码

《python 数据挖掘概念、方法与实践》和开源代码,包含各个章节的代码。

2018-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除