爬虫
文章平均质量分 83
cg_Amaz1ng
这个作者很懒,什么都没留下…
展开
-
“搜狗问问”问答语料爬虫
本人的毕业设计是构建一个基于机器学习的问答系统,需要用到大量的问题答案对,并且每个问题下都应有相应的分类标签。 鉴于网络上有分类标签的问答语料很少被人公开,本人亲自编写爬虫来抓取语料。 中文的问答网站有:百度知道、知乎、悟空问答、奇虎问答、搜狗问问等,通过筛选,最后我锁定“搜狗问问”网站。原因是:不具备反爬虫机制或者说连最基本的频繁次数限制都没有。每...原创 2018-06-02 20:54:48 · 2517 阅读 · 5 评论 -
ImageNet爬虫(python3)
ImageNet是一个图片检索网站,本爬虫基于python3使用方法:运行爬虫,在控制终端输入搜索内容,后台会自动从ImageNet上搜索并且把图片下载到imagefiles文件夹,子目录文件夹命名为搜索内容。源代码import urllib3import reimport osimport datetimeimport randombaseUrl = "http://ww...原创 2018-12-19 11:33:28 · 673 阅读 · 0 评论