python3爬虫
海螺烧香
这个作者很懒,什么都没留下…
展开
-
python3爬虫——requests(一)
Requests:让http服务人类虽然Python标准库中的urllib模块包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Request自称”HTTP for Humans“,说明使用更简单方便。Request唯一的非转基因的Python库,人类可以安全享有,Request继承了urllib的所有特性,Request支持HTTP链接保持和连接池,支持使用coo...翻译 2018-11-28 23:59:04 · 269 阅读 · 0 评论 -
将Python对象转化为json字符串
将Python对象转化为json字符串1、将Python对象转化为json字符串import jsonperson=[ { 'username':'中国', 'age':'18', 'country':'china' }, { 'username':'山东', 'age':'20', ...翻译 2018-11-30 18:25:10 · 3011 阅读 · 1 评论 -
数据提取之JSON与JsonPATH
数据提取之JSON与JsonPATHJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSONjson简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构...翻译 2018-11-30 17:43:37 · 338 阅读 · 0 评论 -
ajax-爬取拉勾网
#导入所需的包import requestsfrom lxml import etreeimport time#定义一个函数获取,每一个详情页面的url,并将其传给parse_position_detail函数,进行解析def request_list_page(): #定义请求头 headers = { "User-Agent": "Mozilla/...原创 2018-12-04 22:23:46 · 877 阅读 · 0 评论 -
python3-爬虫之电影天堂
pyhon3爬虫之——电影天堂最新电影信息#导入所需要的库import requestsfrom lxml import etree定义全局变量BASE_URL="https://www.dytt8.net"HEADERS = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHT...原创 2018-11-30 02:29:44 · 1751 阅读 · 0 评论 -
pachong
import requestsfrom lxml import etreeHEADERS = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}BASE_DOMAIN="https://w...原创 2018-11-29 23:28:46 · 210 阅读 · 0 评论 -
selenium-操作按钮
#操作按钮from selenium import webdriverdriver=webdriver.Chrome()driver.get("https://www.baidu.com")inputTag=driver.find_element_by_id("kw")inputTag.send_keys("python")submit=driver.find_element_b...原创 2018-12-04 16:20:12 · 2532 阅读 · 0 评论 -
selenium-操作checkbox
#操作checkbox# from selenium import webdriver# from lxml import etree# import time## driver=webdriver.Chrome()# driver.get("https://www.douban.com/")## remeberBtn=driver.find_element_by_name("re...原创 2018-12-04 16:19:25 · 2953 阅读 · 0 评论 -
selenium-操作文本框
#常见的表单元素#输入框:input type=“text/password/email/number”#button input[typte="submit"]# checkbox:input="checkbox"# select:下拉列表# 操作输入框:# from selenium import webdriver# from lxml import etree# from...原创 2018-12-04 16:17:37 · 968 阅读 · 0 评论 -
selenium
from selenium import webdriverfrom lxml import etreedriver = webdriver.Chrome()driver.get("https://www.baidu.com")# html=etree.HTML(driver.page_source)# html.xpath("")input_Tag=driver.find_el...原创 2018-12-04 15:33:17 · 126 阅读 · 0 评论 -
python3豆瓣电影信息爬取
第一步:导入所需要的库import requestsfrom lxml import etree第二步:将目标网站的页面抓取下来headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36", ...翻译 2018-11-29 18:50:43 · 516 阅读 · 0 评论 -
response.text 与 response.content
import requestsresponse1=requests.get("http://www.sina.com")print(response1.request.headers)print(response1.content.decode())response2=requests.get("http://www.sina.com")print(response2.request...原创 2018-11-29 00:57:17 · 534 阅读 · 0 评论 -
python3-get
#导入所需要的库import requestsheaders={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}kd={ 'wd':'长城'}#1、模拟浏览器发起基本的get请求,...翻译 2018-11-29 00:46:38 · 229 阅读 · 0 评论 -
python3爬虫——requests(二)
基于POST请求(data参数)最基本的post方法response=request.post(“http://www.baidu.com/”,data=data)传入data数据对于POST请求来说,我们一般需要为他增加一些参数,那么最基本的传参方法可以利用data这个参数。import requestsformdata = { "type":"AUTO", ...翻译 2018-11-29 00:16:50 · 160 阅读 · 0 评论 -
selenium完美实现拉勾网爬虫
from selenium import webdriverfrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.common.by import ...原创 2018-12-05 15:15:09 · 937 阅读 · 1 评论