![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
bh_xiaoxinba
这个作者很懒,什么都没留下…
展开
-
分布式爬虫学习
静态网页爬虫爬虫的基础技术: HTML CSS 选择器JavaScript 介绍lxml 及 XPathPython 里的网络请求高速位缓存设计:BloomFilter登录及动态网页的抓取表单网站登录及CookieHeadless 的浏览器:PhantomJS浏览器的驱动:Selenium动态网页数据获取多线程与过进程的爬虫线程与进程Python原创 2017-06-28 23:45:34 · 350 阅读 · 0 评论 -
爬虫学习路程
为什么学爬虫?为什么用python?爬虫应用; python效率高;了解python基础list、dict; 爬下来的数据要用python的数据框架来存储,list、dict是基础;另外还需要numpy、pandas; 学习python的数据框架推荐书籍:利用python进行数据分析; 学习http基础爬虫的一些python包urllib、urllib2、requests、BS4、scrap原创 2017-06-29 00:26:12 · 651 阅读 · 0 评论 -
python爬虫--urllib
urlib:URL handling modules; urllib is a package that collects several modules for working with URLs:urllib.request for opening and reading URLsurllib.error containing the exceptions raised by urllib原创 2017-07-16 23:14:42 · 360 阅读 · 0 评论 -
python爬虫--urllib2和urllib区别
urllib和urllib2是url 模块,但提供不同的功能: 1)urllib2可以接受一个request 对象,设置url 请求的headers; urllib只能接受一个url; 2)urllib提供了urllencode方法–编码get查询字符串,但是urllib2中没有该方法;原创 2017-07-16 23:31:13 · 230 阅读 · 0 评论 -
python爬虫--urllib2和requests
- 1、实例1使用get方法从http://example.test/获取资源并且查看返回代码,content-type头信息,还有response的主体内容。1.1 使用urllib2实现import urllib2 url = 'http://example.test/' response = urllib2.urlopen(url) response.getcode() //200原创 2017-07-16 22:34:13 · 493 阅读 · 0 评论 -
python爬虫---requests
Requests 是一个 Python 的 HTTP 客户端库。模拟网络请求非常推荐Requests,简单易用。1、发送请求Requests 发送网络请求; 1)导入 Requests 模块 import requests 2)获取某个网页 r = requests.get(‘https://github.com/timeline.json‘),其中 r 的 Response 对象原创 2017-07-16 18:53:27 · 281 阅读 · 0 评论 -
python爬虫--BeautifulSoup
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python; 1、导入 from bs4 import BeautifulSoup bs = BeautifulSoup(html) 2、对象 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString原创 2017-07-16 23:49:58 · 253 阅读 · 0 评论 -
python爬虫--构建网络爬虫的工程要点
图论中的遍历算法:广度优先搜索BFS,深度优先搜索DFS; 互联网就是一张图,每个网页是一个节点,超链接就是连接网页的弧; 从任何一个网页出发,利用图的遍历算法,自动访问到每个网页,并把他们存起来–网页爬虫;1、BFS还是DFS?理论上来说,这两个算法都是可行的; 考虑到实际因素,互联网是动态的,不是静态不变的,所以网络爬虫问题更应该定义为“在有限的时间里最多的爬下最重要的网页”。1)最重要的翻译 2017-07-30 22:52:08 · 615 阅读 · 0 评论 -
python数据爬虫---拉钩网
1、拉勾网数据分析一般思路进入到拉勾网,输入相应的职位,搜索;查看源码,没有我们想要的数据,于是抓包发现:拉勾网采用Ajax技术,数据以格式存储===》 发送的请求:Request URL:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=falseRequest Method:POSTStatus Code:20原创 2017-08-02 00:21:28 · 909 阅读 · 0 评论