- 博客(3)
- 收藏
- 关注
原创 以前的BUG
抓取数据后保存出现问题UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 11126: illegal multibyte sequence产生原因:文本中出现的一些特殊符号超出了gbk的编码范围http://blog.csdn.net/shijing_0214/article/details/5197173...
2018-04-24 10:00:10 152
转载 抓取动态页面
Python爬虫入门实战七:使用Selenium–以抓取QQ空间好友说说为例 https://zhuanlan.zhihu.com/p/25006226selenium + PhantomJS使用时 PhantomJS报错解决 https://blog.csdn.net/u010358168/article/details/79749149...
2018-04-16 18:02:10 224
转载 word2vec聚类
评论抓取、去重、去标点符号、词性标注+分词、去停用词 (linux上,txt存为默认,不用存utf-8;win上txt存utf-8)安装linux 使用VMware安装CentOS7详请 https://blog.csdn.net/hui_2016/article/details/68927487安装vmware tool 工具 VMWare里CentOS7与win10共享文件 ht...
2018-04-10 15:13:02 1306
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人