自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuihupo的博客

主要方向推荐系统等数据挖掘技术,现进军自然语言处理学习

  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 Linux 下载文件到windows本地

 从Linux服务器下载文件到本地使用xshell工具使用xshell登录方便,操作也比较方面。传文件 就是使用rz,sz 首先,服务器要安装了rz,sz yum install lrzsz 当然你的本地windows主机也通过ssh连接了linux服务器 。运行rz -be,会将windows的文件传到linux服务器 运行sz filename,会将文件下载到windows本地...

2018-09-27 11:13:45 50844 5

原创 Python小点dian儿: 按列条件筛选、删除DataFrame的整行

pandas删除指定行遇到清洗数据的问题,需要把某一列数据中,那些为指定元素的数据,整行去除尝试了drop却不能到达理想的效果,drop仅仅删除了第一个。isin效果理想。import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c'],"...

2018-09-25 17:38:58 26260 2

原创 Python 对数据one-hot编码

目录 离散特征的编码分为2种情况:连续变量的离散化处理法1.标签的处理:法2.计算指标/哑变量one-hot编码结合pd.cut,处理连续变量合并():要注意使用merge还是join离散特征的编码分为2种情况:1.我们在进行那些有大小关系的变量离散,小雨,中雨,大雨,{“小雨”:1,“中雨”:2,“雨天”:3},这里面有一定数量的大小关系,这种映射的讲解在...

2018-09-16 14:16:20 27815 1

转载 python中常用的九种预处理方法分享

python中常用的九种预处理方法分享这篇文章给大家分享了python中常用的九种预处理方法,对大家学习或使用python具有一定的参考价值,有需要的朋友们可以一起来看看。本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Varia...

2018-09-13 15:48:53 628

原创 数据第一眼

data.info()查看数据类型,数据多少,是否有NULLclass 'pandas.core.frame.DataFrame'>Int64Index: 612644 entries, 0 to 612651Data columns (total 27 columns):service_type 612644 non-null int64...

2018-09-13 15:47:59 102

原创 Python小点dian儿: ValueError: invalid literal for int() with base 10

对于一种的字符串(整数字符,加了引号),这种可以int(“num”)即可达到效果,同理int类型的数据,str(num),就可以实现 "num"的类型转换:>>> int("3")3>>> str(3)'3'>>> int(1.23)1>>> int("3&quot

2018-09-13 15:35:16 1686

原创 查看Python安装包的版本

>>>import pandas as pd>>> pd.__version__'0.18.1' 

2018-09-10 22:28:09 7447

原创 Python小点dian儿: Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index

    目录 我们在读入数据的时候,数据本来有它自身的user_id,这行数据又是不进入模型训练的。我们怎么处理呢?   法一:文件读入阶段小点dian儿:,读入文件的几行,参数:nrows=行数法二:在DateFrame阶段设置:小点dian儿::读入文件的指定列,参数:usecols=["列名1',"列名2",.....],及前几行,参数:nrows=行数。小点...

2018-09-08 11:44:02 18879 2

原创 使用Python搭建简单的windows服务器

目的一:实现局域网内静态文件的发放;第一步:服务器开启。根据python版本的不同,在指定文件夹内的cmd下键入如下命令。(此文件夹是要对外的文件)python2输入:python -m SimpleHTTPServer 8000python3输入:python -m http.server 8000这个8000是端口号,可自定义选择未被占用的端口。运行后提示...

2018-09-04 17:05:31 7934 3

msra(NER)命名实体识别语料

采用如下标注方法: nr人名 ns 地名   nt 机构团体    “团”的声母为t,名词代码n和t并在一起。 nz 其他专名 eg:红军/nt 将领/o 孙毅/nr 将军/o 为/o 我们/o 收藏/o 的/o 二十余册/o (/o 1937年/o —/o 1945年/o )/o 晋察冀抗日根据地/ns 出版物/o

2018-11-26

中文命名实体识别语料

BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。

2018-11-26

XGBoost模型原理及其在各大竞赛中的优异表现

XGBoost模型原理及其在各大竞赛中的优异表现,csdn的视频。

2018-08-11

pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.wh

来源:http://mlln.cn/2018/01/31/pyltp在windows下的编译安装/ 包含:pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2018-08-10

jpype1for python3.5

JPype1_py3-0.5.5.2-cp35-none-win_amd64.whl (md5)。 使用pip install wheel 安装wheel成功后,再次安装该文件 pip install ****.whl 即可。主要用于手动安装python3.5对应的jpype1。网上很多地址是LFD提供的代码包链接,但是发现18.3月我下载的一天链接不能下载了。本人搜索能力不行,没有直接找官网一直在博客里搜索浪费半天时间,现把找到的也亲测有效的公布在这里,也可以自行在官网下载。

2018-03-27

python 数据挖掘概念、方法与实践代码

《python 数据挖掘概念、方法与实践》和开源代码,包含各个章节的代码。

2018-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除