数据挖掘
TonyPaPa
这个作者很懒,什么都没留下…
展开
-
Ubuntu Python+Selenium 实现简单的数据增强
将句子放入翻译,把结果拿出来再放进翻译得到最终的句子,这就是一种数据增强 我们的原始文本为“train",我们把它打开,输出每一行 结果就是原文件train的每一行 现在我们能够得到原始文本的每一行,接下来开始构建思路 思路很简单:即把每一行放入翻译框,把结果取出来再放入翻译框,取最终的结果保存起来 我们利用selenium来模拟浏览器点击 selenium调用浏览器必须要有一个webdriv...原创 2018-11-25 12:54:24 · 610 阅读 · 0 评论 -
Python 爬虫设置动态代理
爬虫的时候,我们用同一个ip反复爬一个网站有可能会被封,这时候就需要使用到代理ip 网上有免费的开放代理,但有些代理ip稳定性差要经常更换且有些爬取后就不可用了还要再筛查 除了免费的外可以向代理供应商购买带代理,它们提供有效代理,并有用户名和密码,和免费的相比多了一个认证 http://www.xicidaili.com/,这个网站列出了很多免费代理。我们以免费的代理为例,如何设置有用户名和...原创 2018-08-17 22:34:39 · 2079 阅读 · 2 评论 -
ubuntu 安装scrapy错误解决方法
在终端输入 sudo pip install scrapy #或者 pip install scrapy 都会报错 看了很多别的博客的方法都没能成功解决 最后想直接输入scrapy看会报什么错误 然后成功解决问题 希望这个方法能解决你的问题...原创 2018-08-12 22:22:39 · 1021 阅读 · 0 评论