自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 一个镜像下载网站,下载速度快,包括centos,ubuntu等镜像

阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 (aliyun.com)

2024-01-04 09:32:29 410

原创 爬虫源码---爬取自己想要看的小说

小说作为在自己空闲时间下的消遣工具,对我们打发空闲时间很有帮助,而我们在网站上面浏览小说时会被广告和其他一些东西影响我们的观看体验,而这时我们就可以利用爬虫将我们想要观看的小说下载下来,这样就不会担心广告的影响了。

2023-09-04 23:12:09 7435 34

原创 爬虫源码---爬取小猫猫交易网站

本片文章主要对爬虫爬取网页数据来进行一个简单的解答,对与其中的数据来进行一个爬取。

2023-09-03 23:21:23 10726 46

原创 爬虫--爬取自己想去的目的的车票信息

本篇文章主要作为一个爬虫项目的小练习,来给大家进行一下爬虫的大致分析过程以及来帮助大家在以后的爬虫编写中有一个更加清晰的认识。

2023-09-01 23:27:45 10941 31

原创 我的创作纪念日

例如最初创作的初心便是记录一下自己的学习笔记,不知不觉已经创作的几十篇文章了,也收获了许多的阅读量,让我对创作博文有了更加的强烈的热情,我也会去创作更多的博文来记录自己的学习。在实习期间也创作的自己的博文来记录自己的学习情况,来帮助我对自己的学习有着更加好的关注度,让我有一个更好的学习习惯,对自己的知识有一个更加好的整理。在创作的期间也收获了许多志同道合的朋友,也学习到了许多大佬的创作技巧,也收获了一些粉丝,这对我的创作有了很大的帮助。

2023-08-29 19:35:34 145 1

原创 爬虫练习源码

利用爬虫爬取电影票房榜数据。

2023-08-15 22:14:41 514 39

原创 爬虫练习源码

【代码】爬虫练习源码。

2023-08-14 21:39:12 471 4

原创 爬虫练习源码

利用XPATH语句解析电影数据。

2023-08-13 20:15:31 500 4

原创 爬虫---练习源码

选取的是网上对一些球员的评价,来评选谁更加伟大一点。

2023-08-04 18:24:13 1325 10

原创 爬虫-requests-cookie登录古诗文网

难点:我们在进行登录时观察到与许多参数,我们要对参数进行分析,在分析的时候我们发现了三个变化参数分别是VIEWSTATE, VIEWSTATEFENE, CODE。而且我们在对登录页面解析时,并不能找到VIEWSTATE, VIEWSTATEFENE,而这样的参数一般就会放在被隐藏在页面源码之中,我们需要去对页面源码解析并获取数据,这也是现在网站喜欢用的一个反扒手段。而且古诗文网的登录页面采用动态验证码来登录,我们考虑的时获取每次登录时产生的随机验证码图片,手动输入验证码来进行登录。

2023-07-29 22:59:57 995 1

原创 selenium交互代码

Selenium是一款强大的Web自动化测试工具,可以模拟用户在浏览器上的操作以及与页面元素的交互。在本文中,我们介绍了如何进行页面数据及元素的交互,其中代码示例演示了如何使用Selenium搜索并点击百度的下一页,读者可以根据自己的需求进行修改。对于需要进行Web自动化测试的开发者来说,Selenium提供了一种方便的测试方式。通过使用Selenium,可以快速地检验页面的功能性以及稳定性,提高测试效率,保证网站的质量。

2023-07-28 22:10:17 884

原创 selenium定位元素的方法

Selenium可以驱动浏览器完成各种操作,比如模拟点击等。要想操作一个元素,首先应该识别这个元素。人有各种的特征(属性),我们可以通过其特征找到人,如通过身份证号、姓名、家庭住址。同理,一个元素会有各种的特征(属性),我们可以通过这个属性找到这对象。网上的find_element_by_xxx方法可能会出现不匹配的方法,所以我用的最新方法。下面我们利用百度网站来进行元素定位的操作。

2023-07-27 23:15:55 566

原创 JSONPATH简单入门语法

JSONPath语法和XPATH语法对比 JSON结构清晰,可读性高,复杂度低,非常容易匹配。JSONPath的语法与Xpath类似,如下表所示为JSONPath与XPath语法对比。2:所有的作者(由于文件中有多个指标,所以我们可以查询多指标里面的信息)我们在使用jsonpath的时候首先需要去安装jsonpath。4:store里面所有的price。3:store下面的所有元素。8:过滤出所有含isbn的书。9:那本书超过了10块钱。1:查询所有书店的作者。

2023-07-24 13:31:28 166 1

原创 xpath解析HTML文件

XPath是一种用于选择XML文档中节点的语言,它可以通过路径表达式来定位节点。由于HTML文档的结构与XML文档类似,XPath也可以用于解析HTML文档。XPath的路径表达式类似于文件系统中的路径,它用于描述节点在文档树中的位置。标签名:标签名用于描述节点的类型,它可以是HTML标签名或XML标签名。例如,img表示图片节点,a表示链接节点。轴:轴用于描述节点与当前节点的关系,它可以是父节点、子节点、兄弟节点等。//:查询所有子孙节点,不考虑层级关系。谓词:谓词用于描述节点的属性或位置。

2023-07-23 23:52:44 346

原创 最新版edge浏览器中安装xpath插件

最近在跟着尚硅谷进行爬虫的学习,老师给出了在谷歌浏览器安装Xpath插件的方法,由于电脑上面未安装谷歌浏览器,所以在网上搜索了在edge上安装Xpath插件的方法,安装完成以后发现使用快捷键 CTRL +SHIFT+X不能够打开,以为是自己安装错误,后面才知道是和浏览器自身的快捷键冲突,浏览器的快捷键也不能更改,又去搜索了方法,发现更改Xpath的配置文件来更改就可以了。2:打开浏览器的扩展(点击edge右上角的“...”,选择扩展)4:点击加载 解压缩的扩展,然后选中你的解压文件。

2023-07-22 23:57:52 5140 8

原创 爬虫-微博个人主页的获取

我们在利用爬虫爬取微博个人主页的时候,我们需要获取到个人页面的cookie才能进入到微博的个人主页,否则的话将会是一直跳转到登录页面而导致不能进入个人主页。在爬取完生成的HTML中,我们可以直接点击浏览器标识就可进入页面了。

2023-07-21 13:45:36 930 1

原创 爬虫的编解码方式

我们在对爬取一个网页的时候,我们复制了这个网页的地址,但我们发现在将他粘贴下来以后不会是汉字,而是一串字符,这时候,我们需要去对字符进行编码,以便于我们能够继续去爬取网页。我们可以看到源码是带有汉字的,然后我们在进行爬取的时候会出现字符,这时候我们就需要去进行编码。我们在获取user_Agent的时候对页面进行检查就可以获取了。在利用urlencode方法的时候,我们需要定义一个字典存储信息。这是最近学习的一些东西,简单记录一下。get请求的urlencode方法。get请求的quote方法。

2023-07-20 15:07:13 667 1

原创 第一阶段完成

终于是拿到了!!!

2023-07-11 16:39:19 66 2

原创 表白爱心代码

【代码】表白爱心代码。

2023-07-09 20:12:43 93

原创 python爬取图

【代码】python爬取图。

2023-07-08 20:30:05 45

原创 python爬虫源码

【代码】python爬虫源码。

2023-07-07 22:07:36 770

原创 python实现水仙花数

【代码】python实现水仙花数。

2023-07-02 20:58:07 195

原创 找实习的感想

由于自己马上大四了,找一个实习对自己以后找工作会有比较大的帮助,所以就准备暑假去找一个和自己专业相关的实习,自己也投了几份简历,但都没有得到面试的机会。1:简历的深度不够,简历不能够去打动面试官给你面试的机会,别人的简历比你更加优秀,更能打动面试官。2:能力不够,自己对专业知识掌握的不够,不能去胜任公司的工作。我们不能够让自己输在的起点。

2023-07-01 22:20:43 61

原创 爬虫学习笔记

爬虫最重要的就是需要获取URL地址,以便于来爬取我们需要的网页数据。post获取网页内容。

2023-06-30 21:11:59 462

原创 情感词云图

微博的评论有积极的也有消极的,我们可以利用读取的微博评论绘制出词云图来分析消极与积极情绪。首先我们需要去读取我们截取的微博评论,并利用jieba库对评论进行分词。我们在对评论分好词以后就需要对里面的停用词进行处理,去除不需要的停用词。做好停用词处理以后就可以绘制情绪词云图了。

2023-06-23 20:09:33 97

原创 jupyter运行代码时运行速度慢的问题

5:选择优化过的工具:如果您的任务适合不同的工具或平台,可以尝试使用针对特定任务优化过的工具。例如,如果您需要使用GPU进行深度学习训练,可以考虑使用PyTorch或TensorFlow等深度学习框架,这些框架为GPU优化过。1:修改Notebook内核(或Runtime)的资源分配:将CPU、GPU、内存等资源的分配适当地调整到适合您的任务和机器的级别。4:关闭其他程序:如果在计算机上同时运行多个程序,可能会影响Jupyter的运行速度。您可以尝试使用更快的算法,调整超参数,或优化特定的代码段。

2023-06-22 00:38:48 4219

原创 error:imagedraw object has no attribute textbbox

在使用jupyter画出词云图的时候会出现以下错误:imagedraw object has no attribute textbbox。我们可以尝试去更新pillow库。首先卸载pillow库。然后更新pillow库。

2023-06-19 10:45:16 1781 1

原创 Django报错 query = query.decode(errors=‘replace‘)AttributeError: ‘str‘ object has no attribute ‘decod

这个错误通常会在使用 Python 3.x 和 Django 1.x 以及使用 MySQL 数据库时发生。原因是,在 Python 3.x 中运行python2.x编写的代码,里面的字符串是 Unicode 类型,不再具有 decode 方法。由于您正在使用 Python 3.x 版本并尝试使用 Python 2.x 版本的方法。但是,在 Python 3.x 中,网上的解决办法是打开相应的文件把146行的decode修改为encode。但是我无法修改这个文件,所以可以尝试下面这个方法。

2023-06-17 19:43:19 589

原创 以管理员身份运行cmd,使用cd命令切换路径失败

在管理员权限打开cmd时,使用 cd 路径 的方式切换路径时,只能是切换到当前盘符下的目录,而不能切换到其他盘符。:在 cd 路径 之间添加一个 /d 或者 /D 来进行切换,这样就可以切换到其他盘符的目录下。来进行服务的安装,在使用到cd来进行路径切换时,出现了路径切换失败。具体问题:使用到管理员权限。

2023-06-14 07:00:00 2563

原创 更新pip

python在利用pip安装第三方库的时候,会出现一个pip版本的错误。出现这个问题是提醒我们pip版本有错误,需要进行更新。我们可以输入如下代码来进行更新。就可以解决这个问题了。

2023-06-13 09:20:31 24

原创 利用正则表达式识别文本中的中文

我们在利用正则表达式识别中文时,使用Unicode字符范围来匹配中文数字,而Unicode的范围为\ue4e00-\u9fff。正则表达式具有强大的文本模式匹配,对字符串进行搜索,匹配,替换和提取。如果要对字符类进行匹配,我们需要更改pattern为[a-zA-Z]

2023-06-12 07:00:00 615

原创 数据挖掘-k-means算法(利用python代码实现)

KMeans 聚类算法是一种基于距离的聚类算法,用于将数据点分成若干组。在 Python 中,可以使用 scikit-learn 库中的 KMeans 函数来实现 KMeans 聚类算法。下面是一些简单的k-means聚类实现代码。

2023-06-08 07:00:00 860

原创 python爬虫-爬取简单的图片

刚学习爬虫,自己构建代码比较困难,可直接套用已有的框架来进行爬虫的学习。3:对于不同网站,需要自己去更改相应的URL以及item。1:爬虫需要有专门的库,需要自己去下载相应的库。2:有时需要自己去解析需要爬取的东西的源码。下面是一个简单的爬虫代码。

2023-06-07 11:12:49 99

原创 python生成《稻香》的词云图

词云图是数据可视化的一种形式,其视觉冲击力比较强,迎合着现在快节奏的生活,让人一眼就看出这是主题,而不是像以前一样要看密密麻麻的文字报告。以上代码可直接使用,也可以根据自己的想法去编辑图片样式。首先安装jieba和wordcloud库。然后将所需要的读取的词语存入TXT文件中。出现以上截图就是安装成功了。

2023-06-05 07:00:00 98

原创 pycharm和jupyter安装三方库方法

打开pycharm点击file,然后点击settings,找到python Interpreter(python解释器)pip install 第三方库(前面加上!以上便是安装python第三方库的不同运行环境下的方法,如有错误,敬请指正!输入pip install 第三方库,然后回车就可以了。然后点击+号,安装所需要的第三方库,还可以指定库的版本。jupyter notebook安装第三方库。就可以安装第三方库了。pycharm安装第三方库。2:直接安装第三方库。

2023-06-02 09:53:53 4182

原创 windows:查看端口被占用的情况

最近在做一个作业,有一个端口被占用的情况,可以利用代码查看端口被谁占用,并终止端口被占用。1、win+r,调出命令窗口。最后面一串数字为PID号。

2023-06-01 15:02:12 305

原创 数据挖掘聚类分析-手肘法

从手肘法可以看出,在4的时候有明显拐点,可以大致得出最佳聚类数为4。

2023-05-30 13:48:31 662

原创 Jupyter notebook -不显示warning警告

在利用jupyter notebook编程的时候,我们经常会遇见在运行代码以后,结果能够成功的运行出来,但是前面会有一大串的warnings警告信息,我们可以利用代码来隐藏warinings。

2023-05-27 13:47:40 1283

原创 python小游戏-猜随机数

猜随机数游戏的主要原理为利用random随机生成你想指定范围内的随机数,利用if-else语句来对判断语句定义,猜错后会提示猜大了还是猜小了。如果你想对猜的次数有限制,需要加上次数限制。限制次数为6次,未猜中则游戏结束。

2023-05-26 11:13:30 631

原创 python绘制简单图形-matplotlib绘制爱心

【代码】python绘制简单图形-matplotlib绘制爱心。

2023-05-24 09:56:57 363

xpath插件的压缩包

xpath软件的快捷键已更改为CTRL+ALT+X,避免与浏览器的快捷键起冲突,所以更改了一下快捷键。

2023-09-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除