![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
皮卡乒的皮卡乓
这个作者很懒,什么都没留下…
展开
-
Python爬虫-解决IP封禁-代理
原理:使用第三方的一个机器去请求,然后第三方的机器把信息返回给我们。proxies就是我们的代理池子:当访问使用的是https协议时,使用123.70.46.13这个ip地址的3128端口来进行访问。(不要忘记端口号)proxies={ "http":”ip地址:端口号“ "https": "ip地址:端口号"}resp=requests.get(url,proxies=proxies)老版本request#原理,通过第三方的一个机器去请求import requestsurl原创 2021-11-04 17:22:19 · 3317 阅读 · 0 评论 -
Python爬虫案例-猪八戒
from lxml import etreeimport requests# 拿到源代码# 提取解析数据url="https://nanchang.zbj.com/search/f/?kw=saas"resp=requests.get(url)# print(resp.text)#解析html=etree.HTML(resp.text)#拿到每一个服务商的divdivs=html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div[原创 2021-11-03 21:21:09 · 523 阅读 · 0 评论 -
Python爬虫案例-获取图片
# 1.拿到主页的源代码,然后提取到子页面的链接地址,href# 2.通过href拿到子页面的内容,从子页面中找到图片的下载地址import requestsfrom bs4 import BeautifulSoupimport timeurl="https://umei.cc/bizhitupian/weimeibizhi/"resp=requests.get(url)resp.encoding=resp.apparent_encoding#把源代码交给BeautifulSoupm原创 2021-11-01 16:54:51 · 277 阅读 · 0 评论 -
Python爬虫案例-豆瓣Top250
import requestsimport reimport csvn=0for i in range(0,10): url = "https://movie.douban.com/top250?start=" + str(n) + "&filter=" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G原创 2021-10-31 15:16:05 · 130 阅读 · 0 评论 -
Python爬虫-BeautifulSoup
Python爬虫-BeautifulSoupTag 标签及其内容:拿到它所找到的第一个内容NavigableString! 标签里面的内容(字符串)二级目录三级目录Tag 标签及其内容:拿到它所找到的第一个内容bs.titlebs.abs.headNavigableString! 标签里面的内容(字符串)bs.title.stringbs.a.stringbs.head.string二级目录三级目录...原创 2021-10-26 16:13:11 · 91 阅读 · 0 评论