- 博客(6)
- 收藏
- 关注
原创 基于Python的马蜂窝PC端爬取评论文本(Scrapy+Selenium)(一)
研究爬虫的时候用马蜂窝网页端的数据进行实验。爬取到的数据放到json文件中,如果想要存入数据库或者excel文件的的,把存取部分的代码改一下即可,爬取部分的代码一样。可能有些地方不足,敬请斧正。爬虫的代码在mfw_test.py里面写。run.py文件是自己建的,以后右击运行run.py就可以开始爬虫了,不用在cmd窗口敲命令行。settings.py是对爬虫的配置。但是我的爬虫只能爬出来4页的东西,虽然每一页都点到了。pipelines.py文件所写代码如下。mfw_test是爬虫名字。
2023-05-25 16:14:04 1304 1
原创 AttributeError: module ‘numpy‘ has no attribute ‘float‘
找到Lib\site-packages\openpyxl\compat\numbers.py文件(我的文件在anaconda目录里面)把numpy.float删除。或者跟着报错的代码点击直接跳到numbers.py文件。# numpy.float, 这句删除了。解决方法1:降numpy版本。把原来的numpy库删掉再下指定版本。
2023-05-02 10:01:28 844
原创 使用词云报错‘TransposedFont‘ object has no attribute ‘getbbox‘
再重新安装过词云库。下面使用了镜像的资源,不然要下很久。下完词云库的时候会自动下载pillow库和numpy库。2.卸载pillow库。1.卸载numpy库。网上根本找不到这句报错,搞了很久,终于搞完了。
2023-05-01 16:13:38 11353 40
原创 使用selenium遇到网页反爬虫
middlewares.py文件中class ScrapMfwDownloaderMiddleware中的def __init__(self)方法应该写成。在爬取马蜂窝南京景点的评论时,模拟浏览器点进景点后发现页面是空白,状态代码是521,即网页反爬虫了。# 以上是新添加的!加上去之后状态代码就不是521了!
2023-04-15 10:47:48 728 1
原创 Java JDK配置环境变量
①jdk-8u202-windows-x64.exe解压链接:https://pan.baidu.com/s/12wNCQPiSgstFni_neIO7OQ提取码:5n71②此电脑 -> 属性 -> 高级系统设置 -> 环境变量③系统变量点击新建,变量名为JAVA_HOME,找到解压后jdk 1.8.0_202的文件路径,填入变量值。我安装目录在D盘。④系统变量,双击Path,点击新建,找到jdk 1.8.0_202下的bin文件,路径填进去。⑤记得添...
2021-11-16 22:44:26 325 2
空空如也
Pycharm默认运行当前文件
2023-03-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人