python爬虫笔记
边看视频边记录,用来自己学习回顾
葡萄爱写代码(备战秋招版)
这个作者很懒,什么都没留下…
展开
-
04_requests
1、get请求"""urllib(1)一个类型以及六个方法(2) get请求(3) post请求―百度翻译(4) ajax的get请求(5) ajax的post请求(6) cookie登陆 微博(7) 代理#requests(1)一个类型以及六个特性(2)get请求(3)post请求(4)代理(5)cookie 验证码"""import requestsurl = 'https://www.baidu.com/s?'headers = { 'headers'原创 2022-06-01 10:13:06 · 128 阅读 · 0 评论 -
03_selenium
1、selenium的基本使用#(1)导入seleniumfrom selenium import webdriverpath = 'chromedriver.exe'browser = webdriver.Chrome(path)#(3)访问网站# url = 'https://www.baidu.com'# browser.get(url)url = 'https://www.jd.com' #可以访问到电商里面的秒杀板块browser.get(url)#page_source原创 2022-05-24 17:24:01 · 125 阅读 · 0 评论 -
02_解析
1、xpath的基本使用from lxml import etree#xpath解析#(1)本地文件 etree.parse#(2)服务器响应的数据 response.read().decode('utf-8') etree.HTML()#xpath解析本地文件tree = etree.parse('70_xpath的使用.html')print(tree)#tree.xpath('xpath原创 2022-05-24 17:19:33 · 143 阅读 · 0 评论 -
01_urllib
1、urllib的简单使用import urllib.request#(1)定义一个url 就是要访问的地址url = 'http://www.baidu.com'#(2) 模拟浏览器向服务器发送请求 response 响应response = urllib.request.urlopen(url)#(3) 获取响应中的页面的源码 content内容的意思# read方法 返回的是字节形式的二进制数据(b开头)#我们要将二进制的数据转换为字符串 二进制 ——> 字符串 解码原创 2022-05-20 18:18:48 · 10180 阅读 · 0 评论