![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
暗夜里的向日葵
这个作者很懒,什么都没留下…
展开
-
http协议和Chrome抓包工具
什么是http和https协议: HTTP协议:全称是 HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80 HTTPS协议:是HTTP的加密版本,在HTTP下加入SSL层,服务器端口号是403 在浏览器中发送一个http请求的过程: 1.当用户在浏览器地址栏中输入一个URL并按回车键之后,浏览器会向htt...原创 2019-01-09 11:19:30 · 626 阅读 · 0 评论 -
初识爬虫
初识爬虫 世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用...转载 2019-01-08 20:37:58 · 109 阅读 · 0 评论 -
Beautifulsoup4模块
Beautifulsoup4:将html格式的字符串解析成对象,对象.find和对象.find_all from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body转载 2019-01-23 16:11:47 · 117 阅读 · 0 评论 -
requests模块
requests:伪造浏览器发起Http请求 1.get请求 # 1、无参数实例 import requests ret = requests.get('https://github.com/timeline.json') print ret.url print ret.text # 2、有参数实例 import requests payload = {'key1': 'valu...转载 2019-01-22 16:21:34 · 156 阅读 · 1 评论