爬虫
绿头龙
don't think,feel it
展开
-
python爬虫入门笔记--知乎发现(爬取失败了)
import urllib.request import urllib.parse #401 Unauthorized客户试图未经授权访问受密码保护的页面 所以爬取失败了 url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=5ad2f1226d859b5abf6d7d214140e78f&de...原创 2019-06-17 20:22:31 · 1807 阅读 · 0 评论 -
python爬虫入门笔记--ajax-post(查询全国的肯德基门店)
import urllib.request import urllib.parse url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname' city = input('请输入你要查找的城市:') Index = input('请输入你要查找第几页:') Size = input('请输入你要查询多少个:') #p...原创 2019-06-17 20:20:18 · 455 阅读 · 0 评论 -
python爬虫入门笔记--http和https
2、http协议 什么是http协议?双方规定的传输形式 http协议:网站原理 应用层的协议 ftp(21) 端口号:http(80)、https(443) ssh(22) mysql(3306) https://www.cnblogs.com/wqhwe/p/5407468.html> 超...原创 2019-05-20 20:25:49 · 204 阅读 · 0 评论 -
python爬虫入门笔记--post百度翻译
import urllib.request import urllib.parse #创建url #地址一定要写对 url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule ' form_data = { 'action': 'FY_BY_REALTlME', 'bv': ...原创 2019-05-20 20:23:43 · 496 阅读 · 0 评论 -
python爬虫入门笔记--爬虫简介
、爬虫:写程序,然后去互联网上抓取数据的过程 互联网:网,有好多a连接组成,王的节点就是每一个a链接,url(统一资源定位符) 通用爬虫,聚焦爬虫 通用爬虫:百度 360 搜狐 bing 。。。 原理: (1)抓取网页 (2) 采集数据 (3)数据处理 ...原创 2019-05-20 20:24:44 · 166 阅读 · 0 评论 -
python爬虫入门笔记--爬取垃圾分类查询【还有待改善】
import urllib.request import urllib.parse import re #后期应对网页内容用正则表达式进行提取 word = input('输入你想搜索的内容:') # word = '啤酒瓶' url = 'http://lajifenleiapp.com/sk/' #参数写为一个字典(相当于数组) data = { 'sk':word, } hea...原创 2019-07-04 16:09:05 · 1303 阅读 · 0 评论