自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 Ajax破解的常见思路

Ajax破解的常见思路(1)以请求数据为突破口,用Requests库破解通过Requests库破解Ajax的核心是找到真正的请求网址及网址中的翻页参数(i)打开目标网址,F12开发者工具,切换到Network选项卡(ii)Ajax需要创建一个XMLHttpRequest对象,点击“XHR”按钮进行筛选 (a)判断请求是否为Ajax 单击条目,切换到“Headers”选项卡,找到“Request Headers” 若其中包含“X-Requested-With:

2021-09-01 00:18:38 480

原创 ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 225: illegal multibyte sequence

解决办法string = string.repace(u'\xa0', u'')replace()函数replace()函数主要用于在字符串中替换指定内容,其基本语法格式如下:字符串.replace(旧内容, 新内容)示例如下:string = '<em>阴天<.em>期待阳光'string = string.replace('<em>', '')string = string.replace('</em>', '')print(strin

2021-08-28 23:04:26 227

原创 绘制新浪财经上与“贵州茅台”相关的新闻的词云图。

1 需求绘制新浪财经上与“贵州茅台”相关的新闻的词云图。2 代码实现import requestsimport reimport jiebaimport numpy as npfrom imageio import imreadfrom PIL import Imagefrom wordcloud import WordCloud, ImageColorGeneratorheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W

2021-08-19 17:17:18 230

原创 爬取中国经营报网站上与“贵州茅台”相关的新闻,并处理数据乱码。

1 需求爬取中国经营报网站上与“贵州茅台”相关的新闻,并处理数据乱码。2 代码实现import reimport requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'http://www.cb.com.cn/index/search/esSearch?search_text=贵州茅台'data = r

2021-08-19 16:44:53 140

原创 爬取百度首页的信息,添加headers参数并处理数据乱码。

1 需求爬取百度首页的信息,添加headers参数并处理数据乱码。2 代码实现import requestsimport reheaders = {"user-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'https://www.baidu.com/'res = requests.get(url=url, headers=headers).tex

2021-08-19 16:04:05 412

原创 爬取界面中“贵州茅台”相关新闻的标题、网址和日期。

1 需求爬取界面中“贵州茅台”相关新闻的标题、网址和日期。2 代码实现import refrom selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)# 获取网页源代码url = 'https://a.jiemian.co

2021-08-18 19:32:21 235

原创 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。

1 需求批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。2 代码实现import reimport requestsfrom selenium import webdriver# 获取网页源代码chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)url = 'htt

2021-08-18 19:20:40 820 1

原创 爬取巨潮资讯网中与“贵州茅台”相关的公告的标题和网址。

1 需求爬取巨潮资讯网中与“贵州茅台”相关的公告的标题和网址。2 代码实现import refrom selenium import webdriver# 获取网页源代码chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)url = 'http://www.cninfo.c

2021-08-18 18:52:31 425

原创 利用自定义函数实现批量爬取多家公司的新闻

1 需求利用自定义函数实现批量爬取多家公司的新闻。2 代码实现from selenium import webdriverimport redef dongfang(company): chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(options=chrome_options) bro

2021-08-18 14:34:14 459 1

原创 上市公司新闻爬取

1 需求爬取东方财富网的上市公司格力电器新闻。2 代码实现import webbrowserfrom selenium import webdriverimport rechrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)browser.get('https://so.e

2021-08-18 14:26:30 470 1

原创 上市公司股吧帖子爬取

1 需求上市公司贵州茅台股吧帖子爬取。2 代码实现from selenium import webdriverimport rechrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)browser.get('http://guba.eastmoney.com/list,600519

2021-08-18 14:17:04 141

原创 爬取在新浪财经中搜索“贵州茅台”得到的信息,包括新闻标题、网址、来源、日期。

1 需求爬取在新浪财经中搜索“贵州茅台”(https://search.sina.com.cn/?q=贵州茅台&c=news&from=channel)得到的信息,包括新闻标题、网址、来源、日期。2 代码实现import requestsimport re# 获取网页源代码url = 'https://search.sina.com.cn/?q=贵州茅台&c=news&from=channel'headers = {'User-Agent': 'Mozill

2021-08-18 13:00:25 669

原创 爬取多家公司的新浪财经新闻,并设置好异常情况处理。

1 需求爬取多家公司的新浪财经新闻,并设置好异常情况处理。2 代码实现import requestsimport redef news(company, page): # 获取网页源代码 url = 'https://search.sina.com.cn/news?q=' + company + '&c=news&sort=time&page' + str(page) headers = {'User-Agent': 'Mozilla/5.0 (

2021-08-18 12:58:51 422

原创 豆瓣电影Top 250排行榜海报图片下载

1 需求豆瓣电影Top 250排行榜海报图片下载,并实现持续化存储。2 代码实现import reimport requests# 获取网页源代码headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'https://movie.douban.com/top250'res = requests.get(url=url,

2021-08-18 12:57:10 604

原创 证券日报网爬取实战

1 需求证券日报网爬取贵州茅台新闻实战。2 代码实现import requestsimport reif __name__ == "__main__": # 获取网页源代码 url = 'http://search.zqrb.cn/search.php?src=all&q=贵州茅台&f=_all&s=newsdate_DESC' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win

2021-08-17 18:57:47 152

原创 批量爬取多家公司新闻

1 需求批量爬取多家公司新闻,并实现持续化存储。2 代码实现import requestsimport redef baidu(company): # 获取网页源代码 url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/

2021-08-17 18:13:04 1233 2

原创 新浪新闻标题和网址爬取

1 需求新浪新闻标题和网址爬取,并进行数据清洗。2 代码实现import refrom selenium import webdriver# 获取网页源代码browser = webdriver.Chrome()browser.get('https://news.sina.com.cn/china/')data = browser.page_sourcebrowser.quit()# 获取网页网址p_href = '<h2 suda-uatrack="key=index_feed

2021-08-17 17:42:36 444

原创 提取百度新闻的标题、网址、日期和来源

1 需求在百度新闻中搜索“阿里巴巴”,选择按时间排序后,用开发者工具查看搜索结果页面的网页源代码,以通过正则表达式从中提取新闻的来源和日期。2 代码实现import requestsimport reurl = "https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&medium=0"headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0

2021-08-17 16:29:57 1195 2

原创 HTML简单实践

1 需求创建并编辑一个HTML文件,在网页上展示大标题“华小智智能平台”,并且单击标题可以在新窗口中打开网址https://www.huaxiaozhi.com/2 代码实现<html lang="en"><head> <meta charset="UTF-8"> <title>华小智智能平台</title></head><body><h1>华小智智能平台</h1>&l

2021-08-17 16:11:40 124

原创 Selenium模块获取网页源代码

1 需求用Selenium库获取上海证券交易所官网首页的源代码。2 代码实现from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http://www.sse.com.cn/')data = browser.page_sourceprint(data)browser.quit()

2021-08-17 16:08:15 356

原创 Requests模块获取网页源代码

1 需求获取在新浪财经搜索“阿里巴巴”的搜索结果页面的网页源代码。2 代码实现import requestsurl = "https://search.sina.com.cn/?q=阿里巴巴&c=news"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}content = requests.get(url=url, hea

2021-08-17 16:01:53 210

原创 Python打印1到100的所有奇数

1 需求使用Python中的循环打印输出从1到100的所有奇数。2 代码实现class Solution: def PrintTheOdd(self): index = 1 while index <= 100: print(index) index += 1if __name__ == "__main__": solution = Solution() solution.PrintT

2021-08-17 14:44:13 4391

原创 上车下车判断

1 需求坐公交:如果有钱可以上车,没钱不能上车;上车后如果有空做,则可以坐下,如果没有空座,就要站着。2 代码实现import randomdef judge(money): seat = random.randint(0, 10) price = random.randint(1, 2) if money < price: print("余额不足,请下车!") else: print(f"请上车!票价为{price}")

2021-08-17 14:31:28 467

原创 网吧上网判断

1 需求如果用户年龄大于等于18岁,即成年,输出“已经成年,可以上网”。2 代码实现if __name__ == "__main__": age = int(input("请输入你的年龄:")) if age > 18: print("已经成年,可以上网!") else: print("还未成年,不可上网!")...

2021-08-17 14:24:13 503

原创 爬取豆瓣电影动画排行榜

1 需求爬取豆瓣电影动画类别排行榜。2 代码实现import jsonimport requestsurl = "https://movie.douban.com/j/chart/top_list"params = { 'type': '25', 'interval_id': '100:90', 'action': '', 'start': '0', 'limit': '135'}headers = { 'User-Agent': 'Mo

2021-08-15 22:46:46 311

原创 爬取肯德基餐厅查询

1 需求爬取肯德基餐厅查询指定地点的餐厅数据,并实现持续化存储。2 代码实现import requestsurl = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}place = input("Please enter a

2021-08-13 22:48:21 341

原创 爬取豆瓣电影分类排行榜中的电影详情数据

1 需求爬取豆瓣电影分类排行榜中的电影详情数据,并实现动态持续化存储。2 代码实现"""爬取豆瓣电影分类排行榜中的电影详情数据"""import jsonimport requestsurl = "https://movie.douban.com/j/chart/top_list"param = { 'type': '24', 'interval_id': '100:90', 'action': '', 'start': '1', # 从库中的第1部电影

2021-08-13 22:23:36 462

原创 破解百度翻译

1 需求破解百度翻译,动态持久化存储响应信息。2 代码实现"""破解百度翻译"""import requestsimport json# UA伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}# 指定urlpost_url = "https://fanyi.baidu.com/sug"# post请求参数处理kw =

2021-08-13 18:51:57 422 1

原创 简易网页采集器

1 需求爬取搜狗指定词条对应的搜狗搜索结果页面(简易网页采集器)。2 代码实现"""爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)"""import requests# 将对应的User-Agent封装到字典中headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}url = "https://www.sogou.com/web"

2021-08-13 17:52:19 236

原创 爬取搜狗首页的页面数据

1 需求爬取搜狗首页的页面数据,并将页面数据持久化存储。2 实现代码"""爬取搜狗首页的页面数据"""import requests# 指定urlurl = 'https://www.sogou.com/'# 发起请求,get方法会返回一个响应对象response = requests.get(url=url)# 获取响应数据,text返回的是字符串形式的响应数据page_text = response.textprint(page_text)# 持久化存储with open(

2021-08-13 17:27:42 354

原创 Python爬虫(学习笔记)

1 概述创建游戏是趣学语言的理想方式。看别人玩自己编写的游戏让自己很有满足感,而编写简单的游戏有助于自己明白专业级游戏是怎么编写出来的。2 PygamePygame,这是一组功能强大而有趣的模块,可用于管理图形、动画乃至声音,让你能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务,程序员不用考虑众多烦琐而艰难的编码工作,而是将重点放在程序的高级逻辑上。...

2021-08-13 17:24:40 682

原创 第11章 测试代码

1 测试概述编写函数或类时,还可为其编写测试。通过测试,可确定代码面对各种输入都能够按要求的那样工作。在程序中添加新代码时,程序员也可以对其进行测试,确认它们不会破坏程序既有的行为。Python模块unittest中的工具来测试代码。程序员将学习编写测试用例,核实一系列输入都将得到预期的输出。2 单元测试和测试用例Python标准库中的模块unittest提供了代码测试工具。单元测试用于核实函数的某个方面没有问题;测试用例是一组单元测试,这些单元测试一起核实函数在各种情形下的行为都符合要求。

2021-08-12 21:39:44 102

原创 合并排序数组

1 问题描述合并两个升序的整数数组A和B,形成一个新的数组,新数组也要有序。2 问题示例输入A = [1],B = [1],输出[1, 2],返回合并后的数组。输入A = [1, 2, 3, 4],B = [2, 4, 5, 6],输出[1, 2, 2, 3, 4, 4, 5, 6],返回合并所有元素后的数组。3 代码实现class Solution: """归并排序""" def mergeSortedArray(self, A, B): i, j = 0,

2021-08-12 18:39:15 126

原创 翻转一个3位整数

1 问题描述反转一个只有3位数的整数。2 问题示例输入number = 123,输出321;输入number = 900,输出9。3 代码实现class Solution: def reverseInteger(self, number): x = int(number / 100) y = int(number / 10 % 10) z = int(number % 10) return (z * 100 + y * 10

2021-08-12 18:26:37 73

原创 第10章 文件和异常

1 概述学习处理文件,让程序能够快速地分析大量数据。学习错误处理,避免程序在面对意外情形时崩溃。学习异常,即Python创建的特殊对象,用于管理程序运行时出现的错误。学习模块json,该模块能让程序员能够保存用户数据,以免程序停止运行后丢失。2 从文件中读取数据要使用文本文件中的信息,首先需要将信息读取到内存中。程序员一次性读取文件的全部内容,也可以以每次一行的方式逐步读取。3 读取整个文件要读取整个文件,需要一个包含几行文本的文件。3.1 方法open()方法open()接受一个参数:

2021-08-12 18:18:03 90

原创 第9章 类

动手试一试9-1 餐馆:class Restaurant(): def __init__(self, restaurant_name, cuisine_type): self.restaurant_name = restaurant_name self.cuisine_type = cuisine_type def describe_restaurant(self): print("The name of the restaurant i

2021-08-11 18:19:58 109

原创 第8章 函数

1 函数概述函数是带名字的代码块,用于完成具体的工作。要执行函数定义的特定任务,可调用该函数。在程序中多次执行同一项任务,只需要执行该任务的函数。调用函数多次是一种效率极高的工作方式。2 代码定义方法1、使用def关键字来告诉Python要定义一个函数,这是函数定义。2、向Python指出函数名,还可能在括号内指出函数为完成其任务需要什么样的消息,它不需要任何信息就能完成任务,因此括号是空的。3、最后,定义以冒号结尾。注意:函数定义后面的所有缩进行构成了函数体。6个单引号构成的注

2021-08-08 17:36:34 193

原创 第7章 用户输入和while循环

1 用户输入大多数程序都旨在解决最终用户的问题,为此通常需要从用户那里获取一些信息。1.1 方法input()input()让程序暂停运行,等待用户输入一些文本。获取用户输入后,Python将其存储在一个变量中,以方便我们使用。函数input()接受一个参数,即向用户显示的提示或说明。用户将看到提示信息,程序等待用于输入,并在用户按回车键后继续运行。用户输入的数据存储在变量中。使用该函数时,程序员应指定清晰而易于明白的提示,准确指出希望用户提供的信息。在提示末尾包含一个空格,可将提示与用户输

2021-08-06 21:01:06 158

原创 第6章 字典

1 字典概述字典是一系列键-值对。每个键都与一个值相关联,程序员可使用键来访问与之相关联的值。与之相关联的值可以是数字、字符串、列表或字典。键-值对是两个相关联的值。制定键时,Python会返回与之相关联的值。键和值之间用冒号(:)分隔,键-值对之间用(,)分隔。2 访问字典中的值为了获取遇见相关联的值,可依次制定字典名和放在方括号内的键。字典中可包含任意数量的键-值对3 添加键-值对字典是动态结构,程序员可以随时在其中添加键-值对。要添加键-值对,可依次制定字

2021-08-05 21:36:30 355

原创 第5章 if语句

1 条件测试if语句的核心是一个值为True或False的表达式,这种表达式被称为条件测试。Python根据条件测试的值为True或False来决定是否执行if语句中的代码。Python中检查是否相等时严格区分大小写。注意:检查变量的值,可将变量的值转换为小写,在进行比较。有时候检查两个值是否不相等的效率更高。2 检查多个条件2.1 使用and关键字检查多个条件and检查两个条件都为True。如果每个测试都通过了,整个表达式就为True。如果只是奥有一个测试没有通

2021-08-04 15:17:37 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除