python_爬虫
NightCharm
配不上自己的野心,也辜负了所有的苦难
展开
-
01-爬虫基础概念
什么是爬虫请求网站并提取数据的自动化程序Request 与 Response浏览器就发送消息给该网址所在的服务器,这个过程叫做HTTP Request服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response.浏览器收到服务器的Response消息后,会对信息进行相应的处理,然后展示Re...原创 2018-03-17 14:54:32 · 1425 阅读 · 0 评论 -
Python爬取百度图库
Python爬取百度图库页面分析通过Chrome 的开发者模式,我们可以很发现 百度图库是通过ajax 加载图片的。 每一次都会发送一个请求:https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E6...原创 2018-03-20 23:26:06 · 1765 阅读 · 0 评论 -
selenium小玩具
selenium小玩具selenium是一个自动化的工具,之前写过一次爬虫,感觉挺好玩的。根据Excel表格中的数据自动填入网页中,需求就是这个。一开始感觉挺简单的,写起来也挺简单的,demo也挺好,就是在用真实数据跑的时候各种BUG··· 想法和现实的差距太大了实现思路需要的数据是从Excel表格中获取的,所以我们需要先从Excel表格中读取数据。访问目标网页,自动输入...原创 2018-03-24 23:09:25 · 356 阅读 · 0 评论 -
07-Selenium基础
Selenium自动化测试工具, 支持多种浏览器。 爬虫中主要用来解决JavaScript渲染的问题驱动浏览器来做各种动作(跳转、查询、……)——支持主流浏览器 模拟浏览器访问,拿到浏览器渲染后的页面安装pip install selenium基本使用from selenium import webdriverfrom selenium.webdriver....原创 2018-03-17 15:09:51 · 368 阅读 · 0 评论 -
06-pyquery基础
PyQuery强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。初始化字符串初始化html = """<div> <ul> <li class="item-0">first item</l...原创 2018-03-17 15:09:24 · 636 阅读 · 0 评论 -
05-BeautifulSoup基础
BeautifulSoup方便又灵活的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便的实现网页信息的提取html = """<html><head><title>The Dormouse's story</title><head><body><p cla原创 2018-03-17 15:09:00 · 378 阅读 · 0 评论 -
04-正则表达式练习
正则表达式什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑正则表达式非Python独有, re模块实现常见匹配模式re.matchre.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()...原创 2018-03-17 15:08:36 · 394 阅读 · 0 评论 -
03-Requests库
Requests库Requests库是基于urllib库的基础上创建出来的,相对更加方便。安装Requests库 pip install requests引入实例import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(r...原创 2018-03-17 15:07:56 · 332 阅读 · 0 评论 -
02-Urllib库基础
Urllib库什么是Urllib库Python 内置的HTTP请求库 1. urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url解析模块 4. urllib.robotparser robots.txt 解析模块Python3 与 Python2的区别python2...原创 2018-03-17 15:06:54 · 262 阅读 · 0 评论 -
08-requests库的基础入门
requests库的基础入门r = requests.get(url)# r 是Response 信息# get请求的是Request信息Response对象包含爬虫返回的内容Response对象的属性属性 说明r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败r.text HTTP响应内容的字符串形式,即url对应的...原创 2018-03-29 09:09:11 · 433 阅读 · 0 评论