- 博客(9)
- 收藏
- 关注
原创 python数据写入到csv文件,使用excle打开出现了乱码,有两种解决方式:
python数据写入到csv文件,使用excle打开出现了乱码,有两种解决方式:1.从python写入csv时,设置编码格式为:encoding=“utf-8-sig”csv_file = open("csv_豆瓣.csv", "a", newline="", encoding="utf-8-sig")2.从excel打开csv文件,然后进行如下操作:数据->获取数据->来自文件->从文本/csv选择csv文件,点击导入设置编码格式,分隔符,然后点击加载即可..
2020-11-03 12:07:40 708
原创 案例:scrapy图片数据爬取之ImagesPipeline
1.需求:爬取站长素材中的高清图片(http://sc.chinaz.com/tupian/)2.编码流程创建和使用 Scrapy 工程:scrapy startproject imgPro创建出爬虫文件:cd myscrapyscrapy genspider -t crawl imgspider www.xxx.com数据解析(图片地址)将存储图片地址的item提交到自定义的管道类在管道文件中自定义一个继承于ImagesPipeline的管道类重写三个方法
2020-09-30 17:21:50 492
原创 使用scrapy将爬取的数据一份保存在本地,一份保存在数据库中
1.需求:获取糗事百科的作者和段子2.准备:- 创建和使用 Scrapy 工程 - `scrapy startproject qiubaiPro`- 创建爬虫文件 - cd qiubaiPro - scrapy genspider qiubai www.xxx.com3.代码展示qiubai.pyimport scrapyfrom qiubaiPro.items import QiubaiproItemclass QiubaiSpider(scrapy.Spider):
2020-09-30 17:09:31 656 1
原创 案例:使用Scrpay基于CrawSpide类的全站数据
文章目录1.页面分析2.用 Scrapy 编写网络爬虫1.页面分析需求:爬取糗事百科段子板块的 标题,发布时间,评论数,内容分析:爬取的数据没有在同一张页面中,使用链接提取器提取所有的页码链接;使用链接提取器提取所有段子详情页的链接。2.用 Scrapy 编写网络爬虫2.1 创建和使用 Scrapy 工程Scrapy 框架提供了一个 scrapy 命令用来建立 Scrapy 工程,可以使用下面的命令建立一个名为qiubai_crawl 的 Scrapy 工程。scrapy sta
2020-09-30 16:42:51 220
原创 案例:使用selenium模拟qq登入
示例代码from selenium import webdriverfrom time import sleep#实例化浏览器对象bro = webdriver.Chrome(executable_path='./chromedriver')url = "https://qzone.qq.com/"bro.get(url)#使用账号密码登入# 账号密码对应标签在iframe页面中,需要切换作用域,再定位标签并点击bro.switch_to.frame('login_frame')a_ta
2020-09-30 15:23:41 1042
原创 python爬虫学习:第三章:数据解析
第三章:数据解析1. 数据解析的使用聚焦爬虫:爬取页面中指定的页面内容。聚焦爬虫编码流程:指定url发起请求获取响应数据数据解析持久化存储2. 数据解析的分类正则bs4实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象通过调用BeautifulSoup对象中的相关属性或者方法进行标签定位和数据提取准备工作:环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup
2020-09-26 19:44:47 170
原创 python爬虫学习:第二章:requests模块
第二章:requests模块1.基于请求的两个模块urllib模块urllib模块比较古老,封装的关于爬虫的相关操作比较麻烦,繁琐,requests模块代替了urllib模块。requests模块(重点)概念:Python中原生一款基于网络请求的模块特点:处理相关爬虫的操作效率极高,功能强大,简单便捷作用:模拟浏览器发送请求爬虫界有句话:但凡掌握了requests的使用详情,就意味着掌握了整个爬虫领域的半壁江山2.requests模块的使用requests模块的编
2020-09-26 18:41:49 240
原创 python爬虫学习:第一章:爬虫基础
第一章:爬虫基础1.什么是爬虫?通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。为什么要模拟浏览器?比如说我们打开浏览器输入一个网址或者需求后,会呈现一张页面,而页面对应的数据就是浏览器从互联网上获取的,可以认为浏览器就是最原始最天然基于爬虫的工具,浏览器可以帮助我们去互联网抓取数据。抓取:通过编写数据可以获取完整的页面数据或者局部指定特定的页面数据*。2. 爬虫的价值:实际应用就业3. 爬虫究竟是合法的还是违法的?在法律中不被禁止(爬取公开的数据)具有
2020-09-26 18:23:19 353
原创 chrome版本查询和对应驱动下载
chrome版本查询和对应驱动下载1.查看谷歌的版本,在地址栏输入 chrome://version/2.复制版本号,只需复制版本号最后一位小数点之前的数字。(例:版本号:85.0.4183.102 ,复制85.0.4183即可)3.将复制的版本号添加在“https://chromedriver.storage.googleapis.com/LATEST_RELEASE_”后面,然后在地址栏上输入,即可知道对应的谷歌驱动号。(例:https://chromedriver.storage.google
2020-09-19 21:36:47 1189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人