爬虫
C爬爬
这个作者很懒,什么都没留下…
展开
-
Python3爬虫之Requests
Requests 的使用import requestsresponse = requests.get("https://www.baidu.com")print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies...原创 2018-12-12 18:33:34 · 188 阅读 · 0 评论 -
python3爬虫之BeautifulSoup
BeautifulSoup的使用from bs4 import BeautifulSouphtml = '''<html><head><title>The Dormouse's story</title></head&原创 2018-12-13 19:45:40 · 138 阅读 · 0 评论 -
动态HTML处理————selenium库的使用
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不...原创 2018-12-20 10:47:22 · 470 阅读 · 0 评论 -
python3爬虫之 PyQuery库
简介PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。初始化初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件字符串初始化html = '''...原创 2018-12-17 14:25:20 · 209 阅读 · 0 评论 -
Python 爬虫实战
学习再多的理论不实际动手,还是不会写,今天抽点空,写了两个常见的例子一、爬取百度贴吧的图片import requestsfrom lxml import etreeimport jsonclass Tieba(): def __init__(self,name): self.name = name self.header = {"User-Age...原创 2018-12-27 20:04:00 · 307 阅读 · 0 评论 -
python3爬虫之爬虫的原理
爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型解析内容得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可...原创 2018-12-11 18:33:31 · 102 阅读 · 0 评论 -
Python3爬虫之urllib
urllib库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser ro...原创 2018-12-11 19:04:47 · 161 阅读 · 0 评论 -
使用XPath的爬虫
爬取某贴吧import requestsfrom lxml import etreeimport jsonclass Tieba(object): def __init__(self,tieba_name): self.tieba_name=tieba_name self.headers={ "User-Agent": "Mo...原创 2018-12-18 19:25:44 · 259 阅读 · 0 评论