自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 基于Python的马蜂窝PC端爬取评论文本(Scrapy+Selenium)(一)

研究爬虫的时候用马蜂窝网页端的数据进行实验。爬取到的数据放到json文件中,如果想要存入数据库或者excel文件的的,把存取部分的代码改一下即可,爬取部分的代码一样。可能有些地方不足,敬请斧正。爬虫的代码在mfw_test.py里面写。run.py文件是自己建的,以后右击运行run.py就可以开始爬虫了,不用在cmd窗口敲命令行。settings.py是对爬虫的配置。但是我的爬虫只能爬出来4页的东西,虽然每一页都点到了。pipelines.py文件所写代码如下。mfw_test是爬虫名字。

2023-05-25 16:14:04 1304 1

原创 AttributeError: module ‘numpy‘ has no attribute ‘float‘

找到Lib\site-packages\openpyxl\compat\numbers.py文件(我的文件在anaconda目录里面)把numpy.float删除。或者跟着报错的代码点击直接跳到numbers.py文件。# numpy.float, 这句删除了。解决方法1:降numpy版本。把原来的numpy库删掉再下指定版本。

2023-05-02 10:01:28 844

原创 使用词云报错‘TransposedFont‘ object has no attribute ‘getbbox‘

再重新安装过词云库。下面使用了镜像的资源,不然要下很久。下完词云库的时候会自动下载pillow库和numpy库。2.卸载pillow库。1.卸载numpy库。网上根本找不到这句报错,搞了很久,终于搞完了。

2023-05-01 16:13:38 11353 40

原创 使用selenium遇到网页反爬虫

middlewares.py文件中class ScrapMfwDownloaderMiddleware中的def __init__(self)方法应该写成。在爬取马蜂窝南京景点的评论时,模拟浏览器点进景点后发现页面是空白,状态代码是521,即网页反爬虫了。# 以上是新添加的!加上去之后状态代码就不是521了!

2023-04-15 10:47:48 728 1

原创 Java JDK配置环境变量

①jdk-8u202-windows-x64.exe解压链接:https://pan.baidu.com/s/12wNCQPiSgstFni_neIO7OQ提取码:5n71②此电脑 -> 属性 -> 高级系统设置 -> 环境变量③系统变量点击新建,变量名为JAVA_HOME,找到解压后jdk 1.8.0_202的文件路径,填入变量值。我安装目录在D盘。④系统变量,双击Path,点击新建,找到jdk 1.8.0_202下的bin文件,路径填进去。⑤记得添...

2021-11-16 22:44:26 325 2

原创 有包但import时pycharm提示No Modle name

在我重新安装pycharm后,将原来的写的代码导入

2021-11-03 17:13:42 284

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除