自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuihupo的博客

主要方向推荐系统等数据挖掘技术,现进军自然语言处理学习

  • 博客(74)
  • 资源 (6)
  • 收藏
  • 关注

原创 windows 安装pytorch 权限问题

环境说明:windows10 python3.6 anaconda31.按照进入pytorch官网https://pytorch.org/选择正确的命令它会自动为你选择一些配置,复制命令我选择的是:conda install pytorch torchvision cudatoolkit=10.1 -c pytorch2.安装出现报错:ERROR conda.core....

2019-11-12 08:27:48 456

原创 逻辑回归算法梳理

【任务2 - 逻辑回归算法梳理】时长:2天1、逻辑回归与线性回归的联系与区别2、 逻辑回归的原理3、逻辑回归损失函数推导及优化4、 正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法7. sklearn参数参加了Datawhale的活动,虽然在机器学习有一定的实践和经验积累,不过总是有自己的漏洞,所以参加基础的机器学习任务。博客尽力的水到渠成,不过很多内容来自之前自...

2019-04-01 21:29:29 257

原创 线性回归知识总览

博文内容为机器学习的一些概念有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证线性回归的原理线性回归损失函数、代价函数、目标函数优化方法(梯度下降法、牛顿法、拟牛顿法等)线性回归的评估指标sklearn参数详解机器学习的一些概念有监督、无监督统计学习包括监督学习、非监督学习、半监督学习及强化学习。监督学习(superv...

2019-03-29 18:13:35 179

原创 CSDN Markdown编辑下插入公式

使用$将公式左右包括起来,键入的式子将以公式格式显示$公式$ 句中插入,这是一个演示y^\hat{y}y^​$换行居中插入换行居中插入换行居中插入$这是一个演示y^\hat{y}y^​原始语法如下:$公式$ 句中插入,这是一个演示$\hat{y}$ $$换行居中插入$$ 这是一个演示$$\hat{y}$$ ...

2019-03-28 18:14:30 357

原创 Python小点dian儿: 读取一个目录下目录和文件

目录代码一: 输出文件目录相关内容代码二:输出一个目录下所有文件名字(第一层)代码三:返回当前路径下所有层的文件路径列表代码四:依次从内层到外层获取当前路径下文件(改造自代码三),也可直接代码一获取代码五:获取当前路径下一层指定后缀文件列表(多层可改造代码三)代码一: 输出文件目录相关内容os.walk(file_dir)从外到内获取多层# -*- cod...

2019-01-10 21:10:27 720

原创 小点dian儿:pandas混淆矩阵

import pandas as pd pd.crosstab(y_Test,prediction, rownames=["lable"],colnames=["predict"])y_Test,真实值prediction,预测值rownames=["lable"],行名colnames=["predict"],列名

2018-12-28 10:13:01 794

原创 小点dian儿:Python大文件读取、文件拆分,读取部分数据

目录pandas参数说明文件部分读取参数文件成块读取参数成块读入,并写入其他文件。官方文档pandas参数说明pandas在read_csv或 read_table有几个个参数文件部分读取参数nrows : int, default NoneNumber of rows of file to read. Useful for reading pieces ...

2018-12-27 15:34:38 4096

转载 python 删除文件首行或指定行(修改文件)

网上的大多数答案也是,读入,写入的过程,总结如下python修改文件(fileinput) 链接 https://blog.csdn.net/u013398398/article/details/53583596上网查了好多方法都是将文件一行一行都进来,然后新开一个文件指针,将文件再一行行写进新文件里。 感觉不是太好,看到这个fileinput的库,发现大同小异,不过有一点就是可以在原...

2018-12-26 15:33:20 24767 1

原创 python训练work2vec词向量实例(python gensim)

前期工作可参阅:1.python work2vec词向量训练可参考 https://blog.csdn.net/shuihupo/article/details/85156544词向量训练2.word2vec词向量中文语料处理(python gensim word2vec总结) 可参考 https://mp.csdn.net/postedit/85162237汇总数种语料加载方式。之前的...

2018-12-23 21:03:12 6588 13

原创 python work2vec词向量应用方法汇总

目录前期工作可参阅:work2vec词向量应用汇总(词语相似度、集合相似度、词向量计算等)1.获取每个词的词向量2支持词语的加减运算。(实际中可能只有少数例子比较符合)3计算两个词之间的余弦距离4计算余弦距离最接近“word”的10个词,或topn个词5计算两个集合之间的余弦似度6.选出集合中不同类的词语看了很多资源,总感觉work2vec词向量应用总结得不全面...

2018-12-23 20:44:27 1880

原创 python 第三方包的安装位置

键盘 win +R调出 cmd在cmd中输入一个已经安装过的包的命令,它就会显示安装的位置。比如 pip install pandas 它就显示你的安装包目录了。 手动安装第三方详见教程python 安装.whl、egg、zip、tar.gz安装包...

2018-12-21 20:58:20 7064

原创 python训练work2vec词向量(python gensim)

目录看了很多文章,对与word2vec语料的处理没有那么清晰,现在写下自己处理流程,方便入手的小伙伴,望大家使用的过程中,少走弯路。训练语料格式模型训练1.安装gensim2.模型训练3.模型保存3.1模型训练保存与加载1(模型可继续训练)3.1.1模型继续训练3.2模型训练保存与加载2(模型不可继续训练)模型使用汇总(词语相似度、集合相似度、词向量计算等)...

2018-12-21 17:59:10 12316 8

原创 word2vec词向量中文语料处理(python gensim word2vec总结)

目录中文语料处理法一:语料处理为列表法二:语料是文件(处理为迭代器)对一个目录下的所有文件生效(法1) 对一个目录下的所有文件生效(法2)class : gensim.models.word2vec.PathLineSentences对于单个文件语料,使用LineSentence语料库获取语料word2vec中文语料处理及模型训练实践python gensi...

2018-12-21 15:41:45 14832 12

原创 python小点dian儿:去除txt/json重复行

目录去除重复行(法一:利用内置set)去除重复行(法二:建造list或set检查是否已存在)按行写入json/txt文件查看文件行数长度factfile_path  为json文件casefile_path 为txt文件去除重复行(法一:利用内置set)先了解Python splitlines()用法str.splitlines([keepends])按照行...

2018-12-20 22:12:52 785

原创 python json

json.load(filename)json.loadds(string)

2018-12-20 17:22:05 106

原创 python读取文件 \ufeff 问题

df_ID= pd.read_csv(IDfile_path,encoding= 'utf-8',sep = ',',header=None) ID_list= list(df_ID.ix[:,0]) print(ID_list)我的原始输出:['\ufeffee170175-35de-43b8-ad92-a70600b6da3a', '266d79c7-4ca9...

2018-12-16 19:51:44 2937

原创 Python小点dian儿:sort疑问大全

遇到了就刨根问题,补补python基础吧。数据会清理,特征会派生,模型会跑,参数能调,但始终还是有漏洞,或者术语不可名状。python 去重,并保持列表原来顺序list_a = ['cc', 'bbb', 'dda','bbbb', 'cc', 'sss',  'fase']list_new = list(set(list_a))list_new.sort(key = list_a.i...

2018-12-04 17:55:14 114

原创 解决xgboost异常AttributeError: 'DMatrix' object has no attribute 'handle'

xgboost异常AttributeError: 'DMatrix' object has no attribute 'handle' sys:1: DtypeWarning: Columns (65) have mixed types. Specify dtype option on import or set low_memory=False.....xgboost异常Attribu...

2018-10-21 10:41:56 2513

原创 python小点dian儿:使用merge还是join

合并():要注意使用merge还是join#merge是因为两个合并的对象,有相同的列,merge以这些相同的列为索引进行合并,默认内连接('inner'join),可通过参数how来设置左连接,右连接,全连接其他链接方式。下面的栗子按照索引合并,就会出现两个sorce,不可以join#join实现按索引合并,而不管他们有么有相同的列,默认链接键上的左连接,同样可以通过参数how更改.同时可...

2018-10-20 16:42:17 1608 4

原创 日常操作测试(杂)

import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c'],"sorce": [33,61,99],"sorce1": [33,61,99],"sorce2": [33,61,99]})data1 = pd.concat([df,df],ignor...

2018-10-17 17:28:47 90

原创 小点dian儿:pandas数据存入文件,行索引处理

小点dian儿:存入数据的时候,我们希望对数据在系统的行名 保存或者不保存参数:index=None:(类似,header=False不保存列名)在我们不进行如上的设计的时候,系统或分配默认的行index:0,1,2..在我们将运行结果存入文件,如果不加以设置,将会把这一index列,存入数据文件。(我们已经做好如上涉及,我们希望user_id,和结果同时被记录,则不需要如下index是否...

2018-10-10 22:26:08 195

原创 python小点dian儿:DataFrame 取一列,类型是series 还是 DataFrame?

发现一个小点dian儿一个 DataFrame 取一列,不同的表示方法,名字是不是列表,会影响得到的结果的类型series 或者 DataFrame. python果真是好入手,不好学精呀,之前一直知道取一列后类型会改变问serious,每次都要小心的进行处理,现在发现了这个奥妙,Python也真是强。print("------df---------")print(df)prin...

2018-10-09 22:30:54 8321 2

原创 Python 打印显示设置

设置显示最大行pd.set_option('display.max_rows', None) # 设置显示最大行设置显示最大列pd.set_option('display.width', 200)

2018-10-05 22:31:56 1165

翻译 python小点dian儿 读取特殊存储数据

def read_data(path): y = [] row = [] col = [] values = [] r = 0 # 首行第一列为y,其他为x for d in open(path): d = d.strip().split() # 以空格分开 y.append(int(d[0])...

2018-10-05 22:16:45 110

原创 Linux 下载文件到windows本地

 从Linux服务器下载文件到本地使用xshell工具使用xshell登录方便,操作也比较方面。传文件 就是使用rz,sz 首先,服务器要安装了rz,sz yum install lrzsz 当然你的本地windows主机也通过ssh连接了linux服务器 。运行rz -be,会将windows的文件传到linux服务器 运行sz filename,会将文件下载到windows本地...

2018-09-27 11:13:45 28433 5

原创 Python小点dian儿: 按列条件筛选、删除DataFrame的整行

pandas删除指定行遇到清洗数据的问题,需要把某一列数据中,那些为指定元素的数据,整行去除尝试了drop却不能到达理想的效果,drop仅仅删除了第一个。isin效果理想。import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c'],"...

2018-09-25 17:38:58 20021 2

原创 Python 对数据one-hot编码

目录 离散特征的编码分为2种情况:连续变量的离散化处理法1.标签的处理:法2.计算指标/哑变量one-hot编码结合pd.cut,处理连续变量合并():要注意使用merge还是join离散特征的编码分为2种情况:1.我们在进行那些有大小关系的变量离散,小雨,中雨,大雨,{“小雨”:1,“中雨”:2,“雨天”:3},这里面有一定数量的大小关系,这种映射的讲解在...

2018-09-16 14:16:20 16187 1

转载 python中常用的九种预处理方法分享

python中常用的九种预处理方法分享这篇文章给大家分享了python中常用的九种预处理方法,对大家学习或使用python具有一定的参考价值,有需要的朋友们可以一起来看看。本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Varia...

2018-09-13 15:48:53 355

原创 数据第一眼

data.info()查看数据类型,数据多少,是否有NULLclass 'pandas.core.frame.DataFrame'>Int64Index: 612644 entries, 0 to 612651Data columns (total 27 columns):service_type 612644 non-null int64...

2018-09-13 15:47:59 41

原创 Python小点dian儿: ValueError: invalid literal for int() with base 10

对于一种的字符串(整数字符,加了引号),这种可以int(“num”)即可达到效果,同理int类型的数据,str(num),就可以实现 "num"的类型转换:>>> int("3")3>>> str(3)'3'>>> int(1.23)1>>> int("3&quot

2018-09-13 15:35:16 1211

原创 查看Python安装包的版本

>>>import pandas as pd>>> pd.__version__'0.18.1' 

2018-09-10 22:28:09 6382

原创 Python小点dian儿: Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index

    目录 我们在读入数据的时候,数据本来有它自身的user_id,这行数据又是不进入模型训练的。我们怎么处理呢?   法一:文件读入阶段小点dian儿:,读入文件的几行,参数:nrows=行数法二:在DateFrame阶段设置:小点dian儿::读入文件的指定列,参数:usecols=["列名1',"列名2",.....],及前几行,参数:nrows=行数。小点...

2018-09-08 11:44:02 9784 1

原创 使用Python搭建简单的windows服务器

目的一:实现局域网内静态文件的发放;第一步:服务器开启。根据python版本的不同,在指定文件夹内的cmd下键入如下命令。(此文件夹是要对外的文件)python2输入:python -m SimpleHTTPServer 8000python3输入:python -m http.server 8000这个8000是端口号,可自定义选择未被占用的端口。运行后提示...

2018-09-04 17:05:31 5264 3

翻译 XGBoost模型原理及其在各大竞赛中的优异表现"地址及ppt

XGBoost模型原理及其在各大竞赛中的优异表现"的视频地址:https://edu.csdn.net/course/play/6098/113931?s=1 链接内有整体的ppt,下面是我学习所保存的截屏和下载的ppt,关于参数调优的一点点记录。建议有需求的就直接看视频就好啦。 xgboox支持缺失值,不用补齐。案例有两百多万数据。...

2018-08-11 11:31:00 346

原创 python 哈工大NTP分词 安装pyltp 及配置模型(python3.5 3.6)

哈工大语言云 NTP python使用系统配置(方法windows通用): windows10 python3.5第一步 :安装pyltp(无果的) cmd pip install pyltp 失败 (无果的)[pip 指定 安装源方法安装] ,此方法很长时间,也不一定有结果,不建议再尝试啦(https://blog.csdn.net/shuihupo/article/d...

2018-08-10 22:11:14 8095 5

原创 Python 自然语言处理 命名 实体识别

NER系统的构建与评估:1.将文档分割成句子2.将句子分割为单词3.标记每个单词的词性4.从标记单词集中识别出命名实体5.识别每个命名实体的分类6.评估NLTK(Natural Language Toolkit)自然语言处理工具包,在NLP领域中,比较常用的一个Python库。它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源...

2018-08-09 17:45:19 8113 3

原创 FoolNLTK 及 HanLP使用

个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://g...

2018-08-09 17:10:29 2814

原创 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

#!/ Mypython# -*- coding: utf-8 -*-# @Time : 2018/8/5 22:19# @Author : LinYimeng# @File : fenci_ceshi.py# @Software: PyCharmimport timetestCases=["结婚的和尚未结婚的确实在干扰分词啊&a

2018-08-09 17:08:41 16621 6

原创 自然语言处理 其他

ICTCLAS中科院怎么用pythonPython调用PYNIPIR(ICTCLAS)进行中文分词这里写链接内容HanLP训练命名实体识别模型目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。本文将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模...

2018-08-09 17:03:41 108

原创 python 分词器使用

个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://g...

2018-08-08 11:02:32 1386

msra(NER)命名实体识别语料

采用如下标注方法: nr人名 ns 地名   nt 机构团体    “团”的声母为t,名词代码n和t并在一起。 nz 其他专名 eg:红军/nt 将领/o 孙毅/nr 将军/o 为/o 我们/o 收藏/o 的/o 二十余册/o (/o 1937年/o —/o 1945年/o )/o 晋察冀抗日根据地/ns 出版物/o

2018-11-26

中文命名实体识别语料

BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。

2018-11-26

XGBoost模型原理及其在各大竞赛中的优异表现

XGBoost模型原理及其在各大竞赛中的优异表现,csdn的视频。

2018-08-11

pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.wh

来源:http://mlln.cn/2018/01/31/pyltp在windows下的编译安装/ 包含:pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2018-08-10

jpype1for python3.5

JPype1_py3-0.5.5.2-cp35-none-win_amd64.whl (md5)。 使用pip install wheel 安装wheel成功后,再次安装该文件 pip install ****.whl 即可。主要用于手动安装python3.5对应的jpype1。网上很多地址是LFD提供的代码包链接,但是发现18.3月我下载的一天链接不能下载了。本人搜索能力不行,没有直接找官网一直在博客里搜索浪费半天时间,现把找到的也亲测有效的公布在这里,也可以自行在官网下载。

2018-03-27

python 数据挖掘概念、方法与实践代码

《python 数据挖掘概念、方法与实践》和开源代码,包含各个章节的代码。

2018-03-21

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除