爬虫
knight_hyz
这个作者很懒,什么都没留下…
展开
-
网络爬虫,爬取视频网站的短评
网页爬虫,爬取腾讯视频的短评信息。用Fiddler抓包,获取20页的短评信息。import urllib.requestimport http.cookiejarimport urllib.errorimport requestsimport zlibimport re# 通过Fiddler获取到的url地址如下:# url = 'https://video.coral.qq....原创 2020-04-25 19:56:29 · 219 阅读 · 0 评论 -
爬取网页浏览器伪装
import urllib.requestimport http.cookiejarimport urllib.errorimport requestsimport zliburl = 'https://www.baidu.com'# 配置爬取选项cjar = http.cookiejar.CookieJar()proxy = urllib.request.ProxyHand...原创 2020-04-25 11:10:19 · 298 阅读 · 0 评论 -
糗事百科,爬取示例程序
闲来无事,写了个爬取“糗事百科”内容的手动爬取程序;涉及编码转码、信息爬取、正则表达式等内容。import urllib.requestimport reimport collectionsfrom collections import namedtuple#爬取糗事百科内容函数def retrieve(url): #定义正则表达式,分别爬取用户名和内容信息 ...原创 2020-04-16 20:59:23 · 157 阅读 · 0 评论 -
CGI创建服务器,不执行.py文件,仅显示源码的问题
借助CGI创建服务器,使用“python -m http.server 8080”开启服务,结果点击,不执行.py文件,仅显示源码的问题。<HTML><HEAD><TITLE>Friends CGI DEMO</TITLE></HEAD><BODY><H3>Friends list for:<I>...原创 2020-01-06 20:53:34 · 661 阅读 · 1 评论 -
股票信息爬取
股票信息爬取,获取股票列表,并借助股票列表获取个股具体信息!import requestsfrom bs4 import BeautifulSoupimport tracebackimport reimport osimport time'''获取股票信息列表;进而获取个股信息 通过http://quote.eastmoney.com/stock_list.html获...原创 2019-11-18 22:31:53 · 172 阅读 · 0 评论