笔记
在技术海洋里潜泳
经管类学生,想寻求python与经管专业能力提升的完美结合!
展开
-
利用Scrapy爬取网易新闻
利用Scrapy爬取网易新闻 本次利用Scrapy爬取网易新闻当天的新闻标题,内容,来源等信息并存储到csv文件中,具体操作如下。 爬取 在items.py中提前设置好相关的爬取内容函数: import scrapy class NewsItem(scrapy.Item): # define the fields for your item here like: # name ...原创 2020-05-03 22:48:49 · 700 阅读 · 0 评论 -
求解:Scrapy采用正则爬取后成功显示,但是无法定位到准确Url
求解:Scrapy采用正则爬取后成功显示,但是无法定位到准确Url 今天使用scrapy进行爬虫,已经能够正常输出,但是输出内容无法定位准确URL,具体情况如图: cmd中输出的代码url应该是类似于https://new.qq.com/omn/20200501/20200501A07F2Q00.html 这个问题困扰了我很久,希望路过的大佬能够指点我一下,谢谢! ...原创 2020-05-01 15:14:04 · 310 阅读 · 6 评论 -
Scrapy爬虫之解决“'Rule' object is not iterable”
Scrapy爬虫之解决“‘Rule’ object is not iterable” Scrapy爬虫出现“‘Rule’ object is not iterable”时,意思是rule规定的正则表达式无法迭代,无法进一步爬取到所规定的页面,现有以下几种解决方式供参考。 解决方法 检查是否有相关代码打错。 完善正则表达式 rules=( Rule(LinkExtractor(a...原创 2020-05-01 14:45:50 · 804 阅读 · 0 评论 -
结构化爬虫——通过搜索抓取网站
结构化爬虫——通过搜索抓取网站 本次主要分享如何像人类使用搜索条一样爬取网站,即在网站上搜索关键词或者主题并收集搜索结果。 前期准备 通过搜索抓取网站会随着网站的不同而有很大可变性的任务,因此在爬取之前要注意分析url的共同点并且构造好相关函数。本次爬取选取百度网站来抓取几个不同关键词的结果(因为国内可用的搜索引擎差距不大,所以只选取百度一个来进行演练。) 网站分析:可以发现,百度网址资讯板块里...原创 2020-04-25 20:39:31 · 2769 阅读 · 1 评论 -
“百度百科六度分隔理论”(简单版)
“百度百科六度分隔理论”(简单版) 相信大家都听说过“维基百科六度分隔理论”,本文在此只研究该理论的前期过程,即构建一个从一个页面到另一个页面的爬虫。本文选用百度百科的金融词条进行测验。 前期准备 解决url乱码问题:百度百科的url显示出来会出现乱码,以下为解决办法。 #https://baike.baidu.com/item/%E9%87%91%E8%9E%8D/860 from urll...原创 2020-04-18 19:57:30 · 1500 阅读 · 0 评论 -
文档树——节点内容
文档树——节点内容 本文此次分享运用BeautifulSoup获取节点内容。 一、获取直接子节点 import requests#爬虫库 from bs4 import BeautifulSoup#解析库 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...原创 2020-04-11 16:49:51 · 350 阅读 · 0 评论 -
利用爬虫破解简单Custom font
利用爬虫破解简单Custom font 持续更新第二弹! 前期准备 前提说明:本次选取实习僧的代码字体加密进行破解,需要注意的是,实习僧的字体加密每隔一段时间会发生变化,但破解方法大同小异。 对象说明:本次选取实习僧网页中Python实习薪资进行破解,前面一些代码不做过多叙述,主要分享破解方法。 代码破解 铺垫代码展示: import requests from bs4 import Be...原创 2020-04-09 22:46:04 · 142 阅读 · 0 评论 -
利用爬虫爬取简单页码类网页数据
利用爬虫爬取简单页码类网页数据 本人作为一名爬虫初学者,会每天分享自己的爬虫心路历程,希望能够帮助到有需要的小伙伴们。第一次写博客,有许多规矩不太了解,若有冒犯,请多多谅解,同时也希望大家多多指正本文中的不合理之处,谢谢大家! 一、前期准备 对象选择:本次爬取选择具有代表性的页码类网页——糗事百科,本次只爬取前四页的标题、笑话文字等内容。 浏览器使用:chrome 模块使用:requests、B...原创 2020-04-08 20:57:04 · 1312 阅读 · 0 评论