python
Rabin_
这个人很懒,什么都没有留下
展开
-
如何去英文停用词
在进行LDA模型的运行时,需要先将文章进行去停用词的操作,在python中有一个模块为nltk,该模块中包含去停用词一部分:安装nltk模块如果已经安装了anconda,则nltk模块本身携带,但是stopwords不是本身具有的,需要自行安装(反正我的没有): pip install nltk 然后进入python>>>import nltk>&g...原创 2018-08-07 09:23:44 · 9512 阅读 · 2 评论 -
python-爬虫攻略
爬虫初级入门 ps:还有中级入门,木有终极入门~~~爬虫简介:使用爬虫的心路历程BUT !!!!!! 现在的网站都有反扒机制(哼,老师说了,网站不让爬就说明程序猿自己写的代码不好意思让人看到,话说我也是程序猿哎。。。)1) F12看不到网站源代码2)频繁访问拒绝你的连接爬虫简介:emmmmmmmm…爬虫(spider) 就是找个虫子爬呀爬爬呀爬~~~~~网络爬虫(又被称为网页蜘蛛,网络机器人...原创 2018-09-18 19:12:29 · 275 阅读 · 0 评论 -
爬虫之中级入门
看完初级入门,现在来进行中级入门的编写快速爬多个网站基础代理:直接使用ip代理:对了,还有获取网站信息如何处理快速爬多个网站有的时候我们需要快速的进行爬取网站的内容,别问我为啥这么多需求,因为你得爬多个网站的信息呀~在进行了浏览器的伪装之后,我们还可以进行IP的代理,我们每一个网站都用不同的代理Ip去进行访问,这样会大大的降低 -->我们是爬虫 ,打到爬虫,人人有责 的概率。...原创 2018-09-18 19:40:56 · 214 阅读 · 0 评论 -
如何进行中英文分句以及对中英文进行分词
中英文分词简介中英文分词是进行机器学习文本处理方面必须进行的一步,就类似于机器学习中图像处理的降噪,英文分词主要是将标点符号与英文单词进行分隔,中文分词就是讲每个词组进行分隔,ex:‘我是一只程序猿’------>‘我’、‘是’、‘一只’、‘程序猿’,分词是文本处理中数据预处理的必做工作。英文分词英文分词我们使用nltk中提供的WordPunctTokenizer来进行分词,nltk...原创 2018-09-19 10:07:49 · 3047 阅读 · 2 评论 -
python如何将字典格式写入文本
目前暂时只看到写入Json格式的,json格式也可以使用,或者说反过来也可以直接提取dictimport jsondict_1={'val_loss':handle_loss,'val_acc':handle_acc,'val_precision':handle_precision,'val_recall':handle_recall,'val_fmeasure':handle_fmeasur...原创 2019-02-18 10:49:26 · 17252 阅读 · 0 评论