爬虫
六神就是我
万物不仁,天地为刍狗
展开
-
简书首页推荐文章文字爬取,用txt保存
发现简书上有些文章还挺不错,页面如下:然后就手痒写了几行代码,用xpath匹配的方法将首页推荐的文章的内容抓了下来,它有一个“显示更多的按钮”,每次click一下,就会再出现一些内容,这次我设置的是抓了4次更多。之后就是保存在本地了,代码不多,但是还算实用,只是没有将文章里的图片给配套爬取。代码如下:package qita;import java.io.IOException;import ja原创 2016-07-12 14:43:50 · 996 阅读 · 0 评论 -
豆瓣最受欢迎的影评爬虫(第一个爬虫撒花!)
-- coding: utf-8 --from bs4 import BeautifulSoup import requests import urllib import codecs import re import jsonurlnumber = 0 while urlnumber<60: print type(urlnumber), urlnumber url原创 2016-06-16 22:28:30 · 1180 阅读 · 0 评论 -
简书爬取专题文章(爱它就把它爬下来)
简书里的文章有分专题,如 然后随便进入一个专题: 然后问题来,这个专题里面总共有132篇文章,但是先看看它的源代码,里面的有一篇文章居然在源码里搜不到!这也就意味着这篇文章的链接就提取不到了!它的源码里只有到《别再信息偏食……》的内容 好吧,那么要怎么才能把一个专题给爬取完全呢?先开启浏览器网络模式,随着鼠标下滑,发现页面进行了新的载入。原创 2016-07-15 17:28:14 · 1627 阅读 · 0 评论 -
RCurl包学习笔记
RCurl的三大函数: getURL() getForm() postForm()1.R的cat函数: Concatenate and Print 连接和打印 2.移除变量:rm(target) 3.ctrl+L:清屏命令,查看数据类型:typeof(),sep是指默认隔开符 4.c(), 这个函数会生成一个向量 5.解析url地址组成 c=c(“https://www.bai原创 2016-09-21 15:04:51 · 2483 阅读 · 0 评论 -
使用python登录新浪API,实现自动转发功能
step 1 申请App 首先需要在新浪微博注册一个App,新浪会给你一个App ID,App Secret,如图,官网地址在此:http://open.weibo.com/ 然后去高级设置里面去设置一下自己的回调地址: step 2 下载sinaweibopy 感谢廖雪峰大神!直接用pip install sinaweibopy即可,用不了pip的筒子,项目代码如下 https://原创 2016-12-27 19:39:47 · 3672 阅读 · 4 评论 -
python下载网页图片方法总结(含打开网页提示下载)
最近写爬虫,有需求把图片拿下来,现将所有尝试过的方法总结如下原创 2017-01-12 10:55:01 · 5869 阅读 · 0 评论 -
如何使用webmagic发送post请求,并解析传回的JSON
以浙江法院公开网的送达公告数据为例: http://www.zjsfgkw.cn/TrialProcess/NoticeSDList1.分析页面看到参数有3个,分别是cbfy,pageno和pagesize。传回来的数据是以json形式存在:2.json的解析方法 webmagic-extension包中提供了JsonPathSelector这种选择语言来选择数据,如我们需要取得json中的Ca原创 2017-02-21 14:47:26 · 17591 阅读 · 11 评论 -
如何破解类似于简书登录的滑动式验证码
简书简书,时隔半年我又来搞事了,之前有在未登录模式下,爬取过简书的专题和 首页推荐文章,而现在在参考网上大神的代码搞过微博、知乎模拟登录后,感觉自己也是棒棒哒,于是开搞简书!一开始也以为最多就是一个验证码的图片咯,毕竟简书这么友好是吧~结果!excuse me??好吧,当时我就懵比了,简书你变了!你怎么不按照套路出牌?!但是,本人是不会轻易咽气的,科科,小样,我还能百度呢。调出firebug 查看原创 2017-03-12 00:10:13 · 2696 阅读 · 0 评论