进击的C语言-CSDN博客

原创 python爬虫数据存进mysql数据库

我已经在电脑上安装了最新的mysql8.2.0，配置好环境变量，在命令提示符中以管理员的身份初始化并成功启动mysql数据库。前期因为以前的mysql没有卸载干净，导致mysql一直无法启动服务。所以一定要保证以前的mysql卸载干净才能重新安装，以前没有安装过的忽略。

2024-10-22 11:56:19 1781

原创 python爬虫加解密分析及实现

通过加载JS的方法去调用JS文件中的方法。

2024-10-19 13:15:53 3002

原创 Python爬虫学习

print(i) # 得到的结果是("name":"吴谦") ("age":28)a.pop() # 返回最后一个元素，a的最后一个元素被删除，可print(a)print(s1.find('a')) # 4 , 第一次出现的位置，如果没出现过就返回-1。print("我的名字是%s，我的年龄是%d" % (name,age))# 遍历方法：keys() values() items()

2024-10-18 16:49:18 1424

原创【python爬虫】携程旅行景点游客数据分析与可视化

247 .set_global_opts(title_opts=opts.TitleOpts(title="亚龙湾热带天堂森林公园词云图", pos_top="5%", pos_left="center"),25 title_opts=opts.TitleOpts(title="亚龙湾热带天堂森林公园词云图", pos_top="5%", pos_left="center"),

2024-10-17 17:22:38 2813

原创【python爬虫课程设计】天气预报——分类数据爬取+数据可视化

通过Python网络爬虫爬取天气预报让我们快速获取和分析大量的天气数据，并通过可视化手段展示其特征和规律。140 df['最高气温'] = df['最高气温'].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)13 df['最高气温'] = df['最高气温'].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)

2024-10-16 17:31:51 2235 1

原创你必须要知道的100个常用Python库，建议收藏！

是一个强大的数据库抽象层库，允许使用 Python 代码与各种数据库进行交互，支持多种数据库，如 MySQL、PostgreSQL、SQLite 等，提供了统一的操作接口。用于机器学习的常用库，提供了丰富的机器学习算法和工具，包括分类、回归、聚类、降维等算法，方便用户进行模型训练和评估。是一个强大的绘图库，能够创建各种类型的图表，如折线图、柱状图、散点图等，用于数据可视化，帮助用户更直观地理解数据。用于图像处理和计算机视觉的算法库，提供了各种图像滤波、边缘检测、形态学操作等函数，方便进行图像分析和处理。

2024-10-15 15:17:42 772

原创 Python语言概述

工具来管理扩展库，默认情况下，Python 3.x会自动安装pip工具。pip命令不仅可以实时查看本机已经安装的扩展库列表，还支持扩展库的安装、升级、卸载等操作。注意：用pip命令管理Python扩展库需要在命令提示符环境中进行，并且需要切换至pip所在目录。在当前单元格上面创建一个新的单元格。在当前单元格下面创建一个新的单元格。三. Python语言的应用。五. Python语言的优点。一.Python语言的历史。四.Python语言的特点。六.Python语言的缺点。八.Python的安装方式。

2024-10-11 17:50:25 827

原创 python的介绍以及基本操作

（1）python是一门编程语言（比如：java、c++、c、.net、go等都是编程语言）python 也是胶水语言（2）python是一门面向对象，解释型的动态类型的编程语言，a、什么是面向对象？python 中一切皆为对象，对事物的描述和方法系统的定义为一个类，在这个类中的具体的实例，我们就说对象；例如：人：类======== zs 对象（一个具体的对象）b、解释型python程序执行时无需先进行编译成二进制代码不编译，直接在执行过程中对语句一条条进行编译；

2024-10-10 17:45:31 1669

原创 Python验证码识别——前处理

一般的验证码识别，都是先进行前处理，然后分割，在进行识别。这个验证码没有其他噪音，但存在一条横穿的曲线干扰，并且验证码中字体是粘连在一起的。目前不少系统的验证码做得越来越复杂，人眼都难以识别，尤其是QQ之类的验证码，想要识别，太难了。

2024-10-09 13:47:59 604

原创彻底搞懂【Python】切片操作

在利用Python解决各种实际问题的过程中，经常会遇到从某个对象中抽取部分值的情况，正是专门用于完成这一操作的有力武器。理论上而言，只要条件表达式得当，可以通过单次或多次切片操作实现任意切取目标值。切片操作的基本语法比较简单，但如果不彻底搞清楚内在逻辑，也极容易产生错误，而且这种错误有时隐蔽得比较深，难以察觉。本文通过详细例子总结归纳了切片操作的各种情况。若有错误和不足之处请大牛指正！

2024-10-08 13:57:29 5885

原创详解Python的装饰器

Python中的装饰器是你进入Python大门的一道坎，不管你跨不跨过去它都在那里。

2024-10-07 17:29:04 1152

原创 python操作Excel表格

存测试数据有时候有大批量的数据，存到TXT文件里面显然不是最佳的方式，我们可以存到Excel里面去，第一方便我们存数据和做数据，另一方面方便我们读取数据，比较明朗。测试的时候就从数据库中读取出来，这点是非常重要的。存测试结果可以批量把结果存入到Excel中，也是比较好整理数据点，比我们的TXT要好。

2024-10-07 16:45:09 2329

原创【爬虫实战】python入门爬取猫眼电影排行

应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息的工具，成为用户访问万维网的入口和指南。

2024-10-06 14:43:53 1675

原创【python开发环境搭建】

在顶部搜索框里输入想要安装的包名称，就可以搜索到安装包，然后选择它，点击左下角的Install Package，IDE就开始进入下载安装了，如果出现由于网络原因造成安装失败，可以点击其他项后再点回来，然后点安装，多次后就可以安装成功，反复进行后还是无法安装成功的，可以点击查看出错原因，也可以使用命令方式进行，直接看到出错原因。虽然网上有很多python开发环境搭建的文章，不过重复造轮子还是要的，记录一下过程，方便自己以后配置，也方便正在学习中的同事配置他们的环境。要配置编辑界面皮肤，可按下面进行配置。

2024-09-30 17:58:02 1883

原创 Python网络爬虫入门篇

注意：网络连接有风险。Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。使用http库向目标站点发起请求，即发送一个Request，Request包含：请求头、请求体等。Response对象包含服务器返回的所有信息，也包含请求的Request信息。如果requests的内容存在于目标服务器上，那么服务器会返回请求内容。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。**kwargs：控制访问的参数，均为可选项，共以下13个。

2024-09-29 14:29:17 1725

原创 python 操作RabbitMq详解

RabbitMq 是实现了高级消息队列协议（AMQP）的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式，应用程序通过写消息，将消息传递于队列，由另一应用程序读取完成通信。而作为中间件的 RabbitMq 无疑是目前最流行的消息队列之一。系统的高可用：日常生活当中各种商城秒杀，高流量，高并发的场景。当服务器接收到如此大量请求处理业务时，有宕机的风险。

2024-09-28 17:59:50 1171

原创 python爬虫_爬虫原理和数据抓取

从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否及时，因此其性能的优劣直接影响着搜索引擎的效果。著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT，何谓DT，DT即数据技术，由数据在推倒人们的衣食住行，当今时代是一个。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。好的代码像粥一样，都是用时间熬出来的。

2024-09-25 16:38:40 1553

原创 Python 爬虫练手项目—酒店信息爬取

①Strip()方法用于删除开始或结尾的字符。lstrip()|rstirp()分别从左右执行删除操作。默认情况下会删除空白或者换行符，也可以指定其他字符。②如果想处理中间的空格，需要求助其他技术，比如replace(),或者正则表达式。③strip()和其他迭代结合，从文件中读取多行数据，使用生成器表达式。遇到的问题及解决办法。

2024-09-24 16:12:16 702

原创【python】实现爬取网站下所有URL

从第二步获取URL的基础上，遍历请求每个页面，获取页面中的URL链接，过滤掉不需要的信息。首先检查元素，a 标签下是我们需要爬取得链接，通过获取链接路径，定位出我们需要的信息。

2024-09-20 17:29:11 1003

原创一个月入门Python爬虫，轻松爬取大规模数据

scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

2024-09-19 14:09:58 1153

原创用python爬取亚马逊物品列表

通过基础链接以及正则表达式匹配的方法进行替换的方式改变爬取页面

2024-09-18 15:51:34 1925

原创【Python】多线程爬虫爬取电影天堂资源

有一个需要注意的地方就是编码问题，但是也是被这个编码纠缠了好久，通过查看网页的源代码，我们可以发现，网页的编码采用的是GB2312，这里通过XPath构造Tree对象是需要对文本信息进行解码操作，将gb2312变成Unicode编码，这样DOM树结构才是正确的，要不然在后面解析的时候就会出现问题。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓取到的页面，将所需要的信息提取出来，同时获得的新的URL插入到队列中作为下一次爬取的起点。

2024-09-15 18:00:31 1299

原创 Graphviz 安装并使用 (Python)

Graphviz 是一款由 AT&T Research 和 Lucent Bell 实验室开源的可视化图形工具，可以很方便的用来绘制结构化的图形网络，支持多种格式输出。Graphviz 输入是一个用 dot 语言编写的绘图脚本，通过对输入脚本的解析，分析出其中的点、边及子图，然后根据属性进行绘制。Graphviz layout 以简单的文本语言描述图形，并以实用的格式制作图表，如用于网页的 images 和 SVG；用于放入在其它文件中或显示在交互式图形浏览器中的 PDF 和 Postscript。——

2024-09-14 18:01:55 2541

原创如何使用【Python】快速制作可视化报表

Echarts 是百度开源的一个数据可视化 JS 库，主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。就数据分析而言，可视化探索几乎是你正式进行数据分析的第一步，通过SQL拿到数据之后，我们需要使用可视化方法探索和发现数据中的模式规律。除此此外，数据分析的大多时候都是要兜售自己的观点和结论的，而兜售的最好方式就是做出观点清晰数据详实的PPT和报表给老板看。领英的数据报告显示，数据可视化技能在2017年中国最热门技能中排名第一。这里只是一个简单的介绍，感兴趣的可以。

2024-09-14 13:59:18 727

原创【python】爬取网站数据

可以看到，其实存储在计算机中的只是这样的编码，而不是一个一个的汉字，在print的时候要知道当时是用的什么样的编码方式，才能正确的print出来。在python中Unicode是一类对象，表现为以u打头的，比如u'中文'，而string又是一类对象，是在具体编码方式下的实际存在计算机上的字符串。结合以上两点，最终采取了这么一个策略，如果行数是1000的倍数，进行一次flush，如果行数超过65536，新开一个sheet，如果超过3个sheet，则新建一个文件。如果有稍微的不统一，就会失败。

2024-09-13 14:57:20 974

原创【PyCharm】和git安装教程

工作空间的新建代码（红色）——>add——> index暂存区（绿色）——>commit——>本地版本库代码（绿色）——>push——>github/gitlab/gitee（做过修改是蓝色的，忽略的文件是灰色的）选择settings->Version Control->Git，进行本地git配置，输入git的安装目录下git.exe运行文件目录，如图所示，点击Test，查看是否运行成功。能够让你的代码有版本（快照）存档，可以随时回到任何一个版本。修改和增加差不多，先修改文件，然后提交。

2024-09-13 09:13:13 8667

原创 [数据分析与可视化] Python绘制数据地图2-GeoPandas地图可视化

如下代码所示，绘制江苏省地级市GDP地图。# 读取2019江苏省各市GDP数据# 数据来自互联网gdp = pd.read_csv("2022江苏省各市GDP.csv")gdp排行地级市2022年GDP（亿元）01苏州市23958.312南京市16907.923无锡市14850.834南通市11379.645常州市9550.156徐州市8457.867盐城市7079.878扬州市6696.489泰州市6401.89。

2024-09-12 17:59:22 2044

原创【Python】爬虫从入门到进阶之路

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种.

2024-09-11 17:48:16 1460

原创【零基础如何学Python爬虫技术？】

一点伪装和暂停都没有，去别人网站抓取数据，很明显的告诉别人 “我是一只爬虫，快来阻止我”。网站的工程师也很友善，构造了一大批虚假的数据给大学生，层层蜜罐下达到。五月份是各大高校提交毕业论文的时候，大学生们为了获取数据，开始在网上寻找各种爬虫。但是重点来了，在技术不过硬的情况下，大学生式的。到2014年7月为止，在美国顶尖大学里最受欢迎的计算机编程入门语言中，尤其是现在反爬虫日渐严峻的情况下，如何伪装自己的爬虫尤为重要，例如。提供了强大的解析功能，能用又短有简单的方式精准的提取出想要的信息。

2024-09-10 14:23:14 737

原创【python爬虫】之scrapy框架介绍

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

2024-09-09 17:34:54 2714

原创 Python爬取下载m3u8加密视频，原来这么简单！

如何通过python爬取下载m3u8加密视频

2024-09-07 14:57:04 1489 1

原创 [Python之代码爬虫] -爬取披头士乐队历年专辑封面-网易云音乐

前文说过我的设计师小伙伴的设计需求，他想做一个披头士乐队历年专辑的瀑布图。通过搜索，发现网易云音乐上有比较全的历年专辑信息加配图，图片质量还可以，虽然有大有小。我的例子怎么都是爬取图片？（谁让你总是跟设计师小伙伴一起玩耍。。。）看来图片对于设计师来说还是有着很深的情节，那就看他用这些图片能做出什么样的作品啦，期待一下，后续会展示一下他的作品。其实爬取网易云音乐跟之前爬取的网站稍稍有点不同，当然，爬虫写的多了就觉得套路都是固定的，见招拆招而已。

2024-09-06 22:15:00 1248

原创 PyCharm的使用教程详解；PyCharm编程利器安装包下载！

PyCharm还具备自动代码补全、语法高亮、代码导航、版本控制、数据库工具等一系列高级功能，以及可扩展的插件系统，使得Python开发变得更加便捷和高效。：在单步执行时，在函数内遇到子函数时不会进入子函数内单步执行，而是将子函数整个执行完再停止，也就是把子函数整个作为一步。：当单步执行到子函数内时，用step out就可以执行完子函数余下部分，并返回到上一层函数。：单步执行，遇到子函数就进入并且继续单步执行（简而言之，进入子函数）；敲完后，右键文件，点击Run mypy01，就可以运行代码了。

2024-09-06 17:42:35 1121

原创《Python 原生爬虫教程》数据可视化

爬虫只是我们获取数据的第一步，我们最终的目的是要让数据服务于人类，因此，我们需要Numpy,Pandas 等数据分析工具分析数据，然后使用 matplotlib 工具来绘制可视化图形，从而让我们的数据更加生动，更加被一般用户所理解和使用。

2024-09-05 11:38:46 856

原创 10个高效的Python爬虫框架，你用过几个？

小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。

2024-09-04 11:44:52 1550

原创【python爬虫实战】天气数据爬取+数据可视化（附完整代码）

在华北地区的时候，第一个城市在第三个tr标签，城市的名字在tr标签下的第一个td标签，但是在这几个地区，第一个城市在第三个tr标签，而城市的名字在tr标签下的第二个td标签。然后是港澳台，通过查看源代码可以看出来，港澳台里面是不规范的html代码，即有开始标签没有结束标签，如果按照上面的方式写，得到的是不正确的。# 如果是第0个tr标签，城市就是第二个td标签，其余得都选第0个td标签。# 如果是第0个tr标签，城市就是第二个td标签，其余得都选第0个td标签。chart=Bar("中国气温排行榜")

2024-09-03 16:17:51 1638 1

空空如也

空空如也