![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python 爬虫
文章平均质量分 83
quickzhao3223
这个作者很懒,什么都没留下…
展开
-
info函数的封装
大家在使用Python help或者info查看信息时,有时显得很不灵活,冗长并且全英文(可能对一些英文不太好的童鞋而言不方便)。于是,我就封装了下面一个小方法,可以实现将模块或者函数的名称和doc string的中文解释对应上。这里的中文解释来源于有道词典的网络API数据抓取。# 本代码推荐使用使用环境是Python3.5及以上版本,我测试的是Anaconda3-5.1.0-Windows-...原创 2018-05-30 00:21:18 · 5470 阅读 · 1 评论 -
关于有道词典数据爬取的进一步说明
之前Info函数的封装中使用了一个POST的爬取过程得到了英文翻译的结果,这里针对POST的过程做进一步的分析和讲解,供大家进一步了解POST在企业实战中的使用和爬虫破解的细节。 大家对于一个那个诡异的URL链接 "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartre...原创 2018-09-11 22:15:21 · 2577 阅读 · 4 评论 -
微博抓取尝试
微信是比较封闭的,微博的好友信息比较开放,都可以抓到;1)找人,通过关注列表;2)提取出微博的数据,放到数据库;微博昵称,头像;关注,粉丝及微博数量;根据一些基本的原则来决定是否将该用户的微博入待爬的队列;指标:关注人数;粉丝人数;但是有可能会很多人,而且有很多僵尸粉;(不好:第一,低效;第二,平台也不会让你无限制的往下翻页,肯定会有限制)微博数,粉丝数的数量是个重要的参考...原创 2018-07-20 11:48:17 · 2054 阅读 · 1 评论 -
北京链家二手房数据分析
首先我们需要将链家二手房的数据抓取下来,用我们上课学的内容,很容易实现(bs4,re,urllib,搞定!):import reimport csvfrom bs4 import BeautifulSoupfrom urllib import request# 成功打开页面时返回页面对象,否则打印错误信息,退出程序def get_bsobj(url):## 获取 html 页面 ...原创 2018-06-10 14:09:20 · 5613 阅读 · 3 评论 -
使用Selenium抓取百度指数一
本来是想给学生们演示如果使用selenium+浏览器抓取淘女郎网站的图片。但是淘宝不给面子,网站已经访问不了。所以改抓百度指数的数据了,这是第一部分,比较简单的演示:selenium+浏览器(我这是Firefox)的代码。代码如下:from selenium import webdriverfrom selenium.webdriver.common.action_chains import Ac...原创 2018-05-30 21:16:45 · 2287 阅读 · 3 评论 -
豆瓣电影数据爬取示例
这里例子考虑了去重及广度优先遍历算法的使用:说明,这里主要使用BS4的使用,考虑到很多童鞋对正则使用的不熟,其实个人比较喜欢粗暴的使用正则:) 另说明,这是一个单进程单线程的版本;这里的basicSpider之前已经封装好了。from bs4 import BeautifulSoupimport reimport basicSpiderdef get_html(url): """ 获取...原创 2018-05-30 00:49:24 · 4065 阅读 · 7 评论 -
Python爬虫,get方法的封装
大家经常使用Python3的urllib库进行get请求,得到数据,来封装爬虫的行为。下面封装了一个方法供大家参考使用:这里比较规范的使用了工程化的思想,考虑了日志的编写;爬虫发送get请求时,则考虑了UA等http request head部分的设置;并且支持代理服务器的信息处理;返回的状态码不是200时的处理;并且考虑了超时问题,及网页的编码问题import sysimport logging...原创 2018-05-30 00:47:14 · 1570 阅读 · 1 评论