![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
miyafung
这个作者很懒,什么都没留下…
展开
-
2021-10-07 python 获取连接test学习
# @Time:2021-9-27 15:21# coding:utf-8import reimport requestsimport timefrom lxml import etreedomain = "http://www.bzmfxz.com"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/.原创 2021-10-07 09:46:17 · 121 阅读 · 0 评论 -
2021-09-16 python request
1.get 请求# coding:utf-8import requestsquery = input("请输入")url = f'https://www.opticres.com/Search/index.html?keyword={query}'dic = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.45.原创 2021-09-16 14:16:46 · 105 阅读 · 0 评论 -
2021-09-16 web请求过程
web请求过程1.服务器渲染:在服务器那边直接把数据和html整合在一起。统一返回给浏览器,在页面源代码中能看到数据2.客户端渲染:第一次请求只要一个html骨架,第二次请求拿到数据。进行数据展示,在页面源码中看不到数据请求头中最常见的一些重要内容(爬虫需要);User-Agent:请求载体的身份标识(用啥发送的请求) Referer:防盗链(这次请求是从哪个页面来的?反爬会用到) cookie:本地字符串数据信息(用户登录信息,反爬的token)响应头中一些重要的内容:c.原创 2021-09-16 10:15:42 · 70 阅读 · 0 评论 -
2021-09-02 Xpath helper插件使用
1.安装完Xpath helper插件后,打开浏览器,通过快捷键可以调出插件ctrl+shift+x2.通过F12,查看页面代码3.通过copy xpath 粘贴代码识别验证4.通过@href 获得链接5.也可以通过修改定位语句获得当前页面所有title,自行尝试即可...原创 2021-09-02 16:18:05 · 188 阅读 · 0 评论 -
20210830 python 在代理ip下通过搜索关键词查询新闻,并通过邮件发送
# @Time:2021-8-24 10:26import randomfrom email.mime.multipart import MIMEMultipartimport requestsimport reimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.header import Headerimport datetimeimport ti.转载 2021-08-30 11:35:21 · 278 阅读 · 0 评论 -
20210825 python 通过搜索关键词查询新闻,并通过邮件发送
# @Time:2021-8-24 10:26import requestsimport reimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.header import Headerimport datetimedef baidu(company): proxies = { "http": "http://192.168..原创 2021-08-25 13:44:32 · 790 阅读 · 0 评论 -
20210825 Python 收集新闻发送邮件
# @Time:2021-8-24 10:26import requestsfrom lxml import etreeimport smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.header import Headerimport datetimedef get_news(): headers = {'User-Agent': 'Mozilla/5..原创 2021-08-25 10:05:43 · 317 阅读 · 0 评论 -
20210823 python邮件发送
import smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddrfrom email.header import Header### 1.邮件内容配置 #### 发送邮件,这里的密码是申请授权码mail_user_name = 'miya'mail_user = 'miy****o@163.com'mail_pass = 'CE*******KG'# 接收邮件,字符串,邮箱中间用逗号.原创 2021-08-23 16:38:13 · 82 阅读 · 0 评论 -
2020-11-20 python 信息标记 提取
XML --通过标签形式构建信息 <title></title> <!-- -->JSON -- 通过键值对的形式构建,key:value 表示,有数据类型的键值对,键值对之间可以嵌套使用YAML --无类型的键值对表示获取所有的链接内容from bs4 import BeautifulSoupimport requestsdemo =requests.get("https://www.opticres.com")soup = Beauti..原创 2020-11-20 15:13:24 · 162 阅读 · 0 评论 -
2020-11-20 python 基于bs4库的HTML内容遍历方法
标签树的下行遍历属性 说明 .contents 子节点的列表,将<tag>所有儿子节点存入列表 .children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点 .descedants 子节点的迭代类型,包含所有子孙节点,用于循环遍历 from bs4 import BeautifulSoupimport requestscont = requests.get("https://www.opticres.com")so.原创 2020-11-20 11:35:28 · 132 阅读 · 0 评论 -
2020-11-13 python 模拟浏览器
import requestsurl = "https://item.jd.com/100000503781.html"kv = {'User-Agent': 'Mozilla/5.0'}try: r = requests.get(url,headers = kv) print(r.status_code) print(r.encoding) # print(r.text[:100]) print(r.request.headers)except: ..原创 2020-11-20 10:11:46 · 76 阅读 · 0 评论 -
2020-11-12 python Robots协议
Robots协议以京东为例子https://www.jd.com/robots.txtUser-agent: * //代表任何的网络爬虫都应该遵守以下协议Disallow: /?* //任何的网络爬虫都不允许访问以?开头的路径Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / U.原创 2020-11-12 16:30:15 · 277 阅读 · 1 评论 -
01pyhton学习-地址池IP检查2
检查代理IP数量import requestsimport parselimport timedef check_ip(proxies_list):#检测代理ip的质量 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'} can_use = [原创 2020-06-23 10:28:31 · 201 阅读 · 0 评论 -
01pyhton学习-地址池1
01地址获取import requestsimport parselimport timedef check_ip(proxies_list):#检测代理ip的质量 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'} can_use = []原创 2020-06-23 10:14:49 · 196 阅读 · 0 评论