Python爬虫编程
学习笔记
香蕉神经
这个作者很懒,什么都没留下…
展开
-
Ajax破解的常见思路
Ajax破解的常见思路(1)以请求数据为突破口,用Requests库破解通过Requests库破解Ajax的核心是找到真正的请求网址及网址中的翻页参数(i)打开目标网址,F12开发者工具,切换到Network选项卡(ii)Ajax需要创建一个XMLHttpRequest对象,点击“XHR”按钮进行筛选 (a)判断请求是否为Ajax 单击条目,切换到“Headers”选项卡,找到“Request Headers” 若其中包含“X-Requested-With:原创 2021-09-01 00:18:38 · 455 阅读 · 0 评论 -
绘制新浪财经上与“贵州茅台”相关的新闻的词云图。
1 需求绘制新浪财经上与“贵州茅台”相关的新闻的词云图。2 代码实现import requestsimport reimport jiebaimport numpy as npfrom imageio import imreadfrom PIL import Imagefrom wordcloud import WordCloud, ImageColorGeneratorheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W原创 2021-08-19 17:17:18 · 216 阅读 · 0 评论 -
爬取中国经营报网站上与“贵州茅台”相关的新闻,并处理数据乱码。
1 需求爬取中国经营报网站上与“贵州茅台”相关的新闻,并处理数据乱码。2 代码实现import reimport requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'http://www.cb.com.cn/index/search/esSearch?search_text=贵州茅台'data = r原创 2021-08-19 16:44:53 · 122 阅读 · 0 评论 -
爬取百度首页的信息,添加headers参数并处理数据乱码。
1 需求爬取百度首页的信息,添加headers参数并处理数据乱码。2 代码实现import requestsimport reheaders = {"user-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'https://www.baidu.com/'res = requests.get(url=url, headers=headers).tex原创 2021-08-19 16:04:05 · 370 阅读 · 0 评论 -
爬取界面中“贵州茅台”相关新闻的标题、网址和日期。
1 需求爬取界面中“贵州茅台”相关新闻的标题、网址和日期。2 代码实现import refrom selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)# 获取网页源代码url = 'https://a.jiemian.co原创 2021-08-18 19:32:21 · 220 阅读 · 0 评论 -
批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。
1 需求批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。2 代码实现import reimport requestsfrom selenium import webdriver# 获取网页源代码chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)url = 'htt原创 2021-08-18 19:20:40 · 798 阅读 · 1 评论 -
爬取巨潮资讯网中与“贵州茅台”相关的公告的标题和网址。
1 需求爬取巨潮资讯网中与“贵州茅台”相关的公告的标题和网址。2 代码实现import refrom selenium import webdriver# 获取网页源代码chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)url = 'http://www.cninfo.c原创 2021-08-18 18:52:31 · 409 阅读 · 0 评论 -
利用自定义函数实现批量爬取多家公司的新闻
1 需求利用自定义函数实现批量爬取多家公司的新闻。2 代码实现from selenium import webdriverimport redef dongfang(company): chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(options=chrome_options) bro原创 2021-08-18 14:34:14 · 439 阅读 · 1 评论 -
上市公司新闻爬取
1 需求爬取东方财富网的上市公司格力电器新闻。2 代码实现import webbrowserfrom selenium import webdriverimport rechrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)browser.get('https://so.e原创 2021-08-18 14:26:30 · 440 阅读 · 1 评论 -
上市公司股吧帖子爬取
1 需求上市公司贵州茅台股吧帖子爬取。2 代码实现from selenium import webdriverimport rechrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)browser.get('http://guba.eastmoney.com/list,600519原创 2021-08-18 14:17:04 · 134 阅读 · 0 评论 -
爬取在新浪财经中搜索“贵州茅台”得到的信息,包括新闻标题、网址、来源、日期。
1 需求爬取在新浪财经中搜索“贵州茅台”(https://search.sina.com.cn/?q=贵州茅台&c=news&from=channel)得到的信息,包括新闻标题、网址、来源、日期。2 代码实现import requestsimport re# 获取网页源代码url = 'https://search.sina.com.cn/?q=贵州茅台&c=news&from=channel'headers = {'User-Agent': 'Mozill原创 2021-08-18 13:00:25 · 640 阅读 · 0 评论 -
爬取多家公司的新浪财经新闻,并设置好异常情况处理。
1 需求爬取多家公司的新浪财经新闻,并设置好异常情况处理。2 代码实现import requestsimport redef news(company, page): # 获取网页源代码 url = 'https://search.sina.com.cn/news?q=' + company + '&c=news&sort=time&page' + str(page) headers = {'User-Agent': 'Mozilla/5.0 (原创 2021-08-18 12:58:51 · 409 阅读 · 0 评论 -
豆瓣电影Top 250排行榜海报图片下载
1 需求豆瓣电影Top 250排行榜海报图片下载,并实现持续化存储。2 代码实现import reimport requests# 获取网页源代码headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'https://movie.douban.com/top250'res = requests.get(url=url,原创 2021-08-18 12:57:10 · 586 阅读 · 0 评论 -
证券日报网爬取实战
1 需求证券日报网爬取贵州茅台新闻实战。2 代码实现import requestsimport reif __name__ == "__main__": # 获取网页源代码 url = 'http://search.zqrb.cn/search.php?src=all&q=贵州茅台&f=_all&s=newsdate_DESC' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win原创 2021-08-17 18:57:47 · 138 阅读 · 0 评论 -
批量爬取多家公司新闻
1 需求批量爬取多家公司新闻,并实现持续化存储。2 代码实现import requestsimport redef baidu(company): # 获取网页源代码 url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/原创 2021-08-17 18:13:04 · 1197 阅读 · 2 评论 -
新浪新闻标题和网址爬取
1 需求新浪新闻标题和网址爬取,并进行数据清洗。2 代码实现import refrom selenium import webdriver# 获取网页源代码browser = webdriver.Chrome()browser.get('https://news.sina.com.cn/china/')data = browser.page_sourcebrowser.quit()# 获取网页网址p_href = '<h2 suda-uatrack="key=index_feed原创 2021-08-17 17:42:36 · 384 阅读 · 0 评论 -
提取百度新闻的标题、网址、日期和来源
1 需求在百度新闻中搜索“阿里巴巴”,选择按时间排序后,用开发者工具查看搜索结果页面的网页源代码,以通过正则表达式从中提取新闻的来源和日期。2 代码实现import requestsimport reurl = "https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&medium=0"headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0原创 2021-08-17 16:29:57 · 1057 阅读 · 2 评论 -
HTML简单实践
1 需求创建并编辑一个HTML文件,在网页上展示大标题“华小智智能平台”,并且单击标题可以在新窗口中打开网址https://www.huaxiaozhi.com/2 代码实现<html lang="en"><head> <meta charset="UTF-8"> <title>华小智智能平台</title></head><body><h1>华小智智能平台</h1>&l原创 2021-08-17 16:11:40 · 108 阅读 · 0 评论 -
Selenium模块获取网页源代码
1 需求用Selenium库获取上海证券交易所官网首页的源代码。2 代码实现from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http://www.sse.com.cn/')data = browser.page_sourceprint(data)browser.quit()原创 2021-08-17 16:08:15 · 339 阅读 · 0 评论 -
Requests模块获取网页源代码
1 需求获取在新浪财经搜索“阿里巴巴”的搜索结果页面的网页源代码。2 代码实现import requestsurl = "https://search.sina.com.cn/?q=阿里巴巴&c=news"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}content = requests.get(url=url, hea原创 2021-08-17 16:01:53 · 201 阅读 · 0 评论 -
爬取豆瓣电影动画排行榜
1 需求爬取豆瓣电影动画类别排行榜。2 代码实现import jsonimport requestsurl = "https://movie.douban.com/j/chart/top_list"params = { 'type': '25', 'interval_id': '100:90', 'action': '', 'start': '0', 'limit': '135'}headers = { 'User-Agent': 'Mo原创 2021-08-15 22:46:46 · 290 阅读 · 0 评论 -
爬取肯德基餐厅查询
1 需求爬取肯德基餐厅查询指定地点的餐厅数据,并实现持续化存储。2 代码实现import requestsurl = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}place = input("Please enter a原创 2021-08-13 22:48:21 · 323 阅读 · 0 评论 -
爬取豆瓣电影分类排行榜中的电影详情数据
1 需求爬取豆瓣电影分类排行榜中的电影详情数据,并实现动态持续化存储。2 代码实现"""爬取豆瓣电影分类排行榜中的电影详情数据"""import jsonimport requestsurl = "https://movie.douban.com/j/chart/top_list"param = { 'type': '24', 'interval_id': '100:90', 'action': '', 'start': '1', # 从库中的第1部电影原创 2021-08-13 22:23:36 · 444 阅读 · 0 评论 -
破解百度翻译
1 需求破解百度翻译,动态持久化存储响应信息。2 代码实现"""破解百度翻译"""import requestsimport json# UA伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}# 指定urlpost_url = "https://fanyi.baidu.com/sug"# post请求参数处理kw =原创 2021-08-13 18:51:57 · 410 阅读 · 1 评论 -
简易网页采集器
1 需求爬取搜狗指定词条对应的搜狗搜索结果页面(简易网页采集器)。2 代码实现"""爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)"""import requests# 将对应的User-Agent封装到字典中headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}url = "https://www.sogou.com/web"原创 2021-08-13 17:52:19 · 226 阅读 · 0 评论 -
爬取搜狗首页的页面数据
1 需求爬取搜狗首页的页面数据,并将页面数据持久化存储。2 实现代码"""爬取搜狗首页的页面数据"""import requests# 指定urlurl = 'https://www.sogou.com/'# 发起请求,get方法会返回一个响应对象response = requests.get(url=url)# 获取响应数据,text返回的是字符串形式的响应数据page_text = response.textprint(page_text)# 持久化存储with open(原创 2021-08-13 17:27:42 · 344 阅读 · 0 评论 -
Python爬虫(学习笔记)
1 概述创建游戏是趣学语言的理想方式。看别人玩自己编写的游戏让自己很有满足感,而编写简单的游戏有助于自己明白专业级游戏是怎么编写出来的。2 PygamePygame,这是一组功能强大而有趣的模块,可用于管理图形、动画乃至声音,让你能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务,程序员不用考虑众多烦琐而艰难的编码工作,而是将重点放在程序的高级逻辑上。...原创 2021-08-13 17:24:40 · 646 阅读 · 0 评论 -
Python爬虫编程基础5天速成(商品)
课堂练习:商品现有商品列表如下:1、Products = [[“iphone”, 6888], [“MacPro”, 14800], [“XiaoMi”, 2499], [“Coffee”, 31], [“Book”, 60], [“Nike”, 699]],需打印出以下格式:-------商品列表-------0 iphone 68881 MacPro 148002 XiaoMi 24993 Coffee 314 Book 605 Nike 6992、根据上面的P原创 2021-07-30 16:53:31 · 203 阅读 · 0 评论 -
Python爬虫编程基础5天速成(办公室分配)
课堂练习:办公室分配结合list想过知识,实现将8位老师随机分配到3间办公室。import randomnameList = ["Cat", "Dog", "Tiger", "Fish", "Snake", "Bird", "Monkey", "Cow"]officeList = [[], [], []]for name in nameList: index = random.randint(0, 2) officeList[index].append(name)print(of原创 2021-07-30 16:16:34 · 135 阅读 · 0 评论 -
Python爬虫编程5天速成(九九乘法表)
课堂作业:九九乘法表结合for和while相关知识,实现九九乘法表。for循环for i in range(1,10): for j in range(1,i + 1): print(f"{i}*{j}={i*j}", end=" ") print(end="\n")while循环i = 1j = 1while i < 10: while j < i + 1: print(f"{i}*{j}={i*j}", end=" ")原创 2021-07-29 18:42:46 · 254 阅读 · 0 评论 -
Python爬虫编程基础5天速成(1-100求和)
课堂练习:1-100求和结合while的相关知识,实现1-100求和。cnt = 1n = 100sum = 0# 循环求和while cnt <= n: sum += cnt cnt += 1# 打印总和print(f"{cnt}到{n}的和为{sum}")原创 2021-07-29 18:00:59 · 345 阅读 · 0 评论 -
Python爬虫编程基础5天速成(剪刀石头布游戏)
Python爬虫编程基础5天速成课堂练习:剪刀石头布游戏结合使用if语句的相关知识,实现剪刀石头布游戏效果,显示下面提示信息:请输入:剪刀(0)石头(1)布(2)用户输入[0,2]范围的数字,与系统随机生成后的数字比较结果。例如:输入0后,显示如下:你的输入为:剪刀(0)随机生成数字为:1哈哈,你输了!import randomsystem = random.randint(0,2)flag = False # 判断用户异常输入user = int(input("请输入原创 2021-07-29 17:35:49 · 229 阅读 · 0 评论