爬虫
文章平均质量分 81
Elric_01
这个作者很懒,什么都没留下…
展开
-
【Python数据处理】近期在数据处理上遇到的一些问题归纳
1.pandas中强制类型转换场景:在爬虫获取完成数据并且写入csv文件中后,读取数据发现数据类型是object类型。object类型是泛类型数据,在未进行强制转换前,price无法参与运算并且报错(unsupported operand type(s) for /: ‘str’ and ‘int’),原因是price中的非浮点型数据导致报错。而脏数据的产生是因为爬虫爬取过程中,由于ajax加载慢而导致。刚开始想尝试astype方法进行强制类型转换,但是由于有字符串数据存在,所以无法使用。sour原创 2021-06-08 14:42:19 · 907 阅读 · 1 评论 -
python爬虫实现成语接龙1.0
效果图废话不多说直接上代码…import randomimport requestsfrom bs4 import BeautifulSoup# 用于谐音字成语接龙from pypinyin import lazy_pinyinfrom Pinyin2Hanzi import DefaultDagParamsfrom Pinyin2Hanzi import dagclass Spider(object): """ 爬取对应成语最后一个字的成语列表, 有成语随机返回其中一个原创 2020-10-06 11:31:52 · 517 阅读 · 1 评论 -
Selenium爬取京东商城商品基本信息并写入csv
想要爬取一份京东商城的商品数据用来做数据分析使用selenium较稳定,可以绕过很多反爬虫但是使用selenium效率较低,而且通过循环翻页方法会存在数据重复直接上代码import timeimport urllib.parseimport pandas as pdfrom bs4 import BeautifulSoupfrom selenium.webdriver.common...原创 2020-04-29 14:55:21 · 1280 阅读 · 8 评论 -
scrapy爬取cosplay图片并保存到本地指定文件夹
其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习1.首先新建scrapy项目scrapy startproject 项目名称然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider)scrapy genspider -t crawl 爬虫名称 域名2.然后打开pycharm打开scrapy项目 记得要选正确项目包的路径要包含scra...原创 2020-03-23 22:33:22 · 604 阅读 · 0 评论