网络爬虫
文章平均质量分 66
老高丶
这个作者很懒,什么都没留下…
展开
-
简易“线程池”在Python网络爬虫中的应用
一,我是如何使用Python抓取网页的我知道Python有一个爬虫框架scrapy,但是目前还没有学习,并且也没有什么很棘手的的问题需要去使用一个爬虫框架,所以我就用Python自带的urllib,将目标网页爬下来,然后用正则过滤出自己需要的内容。二,效率问题上面的方法简单,真的是上手即用,但是问题是效率问题,如果一个网页一个网页的抓,显然带宽无法达到最高,浪费了大部分带宽,这时候大部分人都会想到,原创 2015-07-30 00:11:10 · 2734 阅读 · 0 评论 -
当Httpclient遇到线程池(记一次爬虫经历)
要抓的数据量有点多,很多个页面,并且都一样的处理,那么直接就上线程池吧.搜了搜,得到了结果,用Executors.newFixedThreadPool()来生产出一个固定大小的线程池,后面所有的任务都会被放置在任务队列中.ok,开始写java线程池的使用建立线程池 ExecutorService executorService = Executors.newFixedThreadPool(10)原创 2015-10-27 23:06:09 · 4488 阅读 · 0 评论 -
HttpClient4.4.1模拟登录知乎
HttpClient4.4.1模拟登录知乎一,登录要Post的表单数据是什么这部分可以使用Wireshark工具来抓包就可以了,发现需要以下数据: > “_xsrf” = xxxx(这是一个变动的数据,需要先活取获取知乎首页源码来获得) “email” = 邮箱 “password” = 密码 “rememberme” = “y”(或者n也可以)获取_xsrf数据:String xsr原创 2015-05-05 21:57:40 · 13694 阅读 · 17 评论