自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuihupo的博客

主要方向推荐系统等数据挖掘技术,现进军自然语言处理学习

  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 使用webdriver打开本地浏览器--python版

webdriver有三种1、firefox浏览器(不需要下载驱动,原生支持) 2.chromedriver 3.IE的驱动IEdriverSelenium调用webdriver.chrome()出错webdirver.chorme()时,却提示PATH路径中没有chromedriver。 意识到自己没有这个驱动,一.下载很多前辈会链接下载地址,不知道是需要爬墙还是链接地...

2018-07-30 20:24:28 4073

原创 一瞬间的触动:PageRank

摘自《数学之美》在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想。当然Google的PageRank算法实际上要复杂得多。比如说,对来自不同网页的链接区别对待,因为那些排名高的网页的链接更可靠,于是要给这些链接以较大的权重。这就好比在现实世界中股东大会里的表决,要考虑每个股东的表决权( Voting Power),拥...

2018-07-26 11:38:23 184

原创 django setting数据库设置(更改mysql),键的含义说明

在项目的 settings.py 文件中找到 DATABASES 配置项,将其信息修改为:DATABASES = { # 'default': { # 'ENGINE': 'django.db.backends.sqlite3', # 'NAME': os.path.join(BASE_DIR, 'db.sqlite3'), 'default':...

2018-07-25 17:47:41 3713 1

原创 Python 学习 scikit-learn 预测准确率计算

1.评价 x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1, train_size=0.6) # 分类器 clf = svm.SVC(C=0.1, kernel='linear', decision_function_shape='ovr') # clf = sv...

2018-07-24 09:15:57 18391

原创 python学习 文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

python学习 文本特征提取(一) DictVectorizer shuihupo 博客地址,https://blog.csdn.net/shuihupo/article/details/80923414 python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习 文本特征提取(三) CountVectorizer ...

2018-07-05 18:11:53 2842

原创 python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

上一篇博客shuihupo 博客地址,https://blog.csdn.net/shuihupo/article/details/80923414 shuihupo对字典储存的的数据,我们使用CountVectorizer对特征进行抽取和向量化。 在文本数据处理中,我们遇到的经常是一个个字符串,且对于中文来说,经常要处理没有分割符的大段最原始的字符串(这种数据需要先分词,转化为一个分割好的字符...

2018-07-05 18:06:00 13048 2

原创 python学习 文本特征提取(一) DictVectorizer

DictVectorizer对使用字典储存的数据进行特征提取与向量化python3处理字典数据# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San F...

2018-07-05 10:45:09 3411

原创 linux 程序被Killed,如何精准查看日志

为死的明白,看清楚是不是内存原因,查看系统日志方面查找kill 原因。1.网上查经常是,查看日志,需要达到文件夹 log 找messagescd /var/log/ 发现massage是按天储存的,且当天的文件不显示,小白很无奈2.在日志文件找killvi maillog-20180701 以编辑方法或者 可以通过cat 或tail 命令来查看发现也看不懂什么...

2018-07-03 22:56:54 109566 8

原创 linux日常记录

目录(1)常用工具命令使用:文件和目录(2)Vim使用:vi的基本操作(3)命令行模式(comand mode功能键)(4)Last line mode 下命令简介(5)vi命令列表(6)版本信息(7)查找日志 日志文件夹的默认存储路径是:/var/log 进程  # ps -ef # 查看所有进程  # top # 实时显示进程状态(另一篇文章里面有详细的介绍)...

2018-07-03 19:44:13 231

msra(NER)命名实体识别语料

采用如下标注方法: nr人名 ns 地名   nt 机构团体    “团”的声母为t,名词代码n和t并在一起。 nz 其他专名 eg:红军/nt 将领/o 孙毅/nr 将军/o 为/o 我们/o 收藏/o 的/o 二十余册/o (/o 1937年/o —/o 1945年/o )/o 晋察冀抗日根据地/ns 出版物/o

2018-11-26

中文命名实体识别语料

BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。

2018-11-26

XGBoost模型原理及其在各大竞赛中的优异表现

XGBoost模型原理及其在各大竞赛中的优异表现,csdn的视频。

2018-08-11

pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.wh

来源:http://mlln.cn/2018/01/31/pyltp在windows下的编译安装/ 包含:pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2018-08-10

jpype1for python3.5

JPype1_py3-0.5.5.2-cp35-none-win_amd64.whl (md5)。 使用pip install wheel 安装wheel成功后,再次安装该文件 pip install ****.whl 即可。主要用于手动安装python3.5对应的jpype1。网上很多地址是LFD提供的代码包链接,但是发现18.3月我下载的一天链接不能下载了。本人搜索能力不行,没有直接找官网一直在博客里搜索浪费半天时间,现把找到的也亲测有效的公布在这里,也可以自行在官网下载。

2018-03-27

python 数据挖掘概念、方法与实践代码

《python 数据挖掘概念、方法与实践》和开源代码,包含各个章节的代码。

2018-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除