爬虫
客院载论
I'm a coder!!
展开
-
python爬虫之Scrapy爬取股票信息的示例
初次使用scrapy框架,对着教程的理解,期待下次的实战原创 2020-05-25 23:54:40 · 1990 阅读 · 2 评论 -
python爬虫之scrapy框架(对比之下,一切通俗易懂)
python爬虫之scrapy框架(对比之下,一切通俗易懂)首先回顾一下常见的爬虫的路线方法首先,调用requests库,根据url网址,获取对应的网页的html信息然后,对爬取回来的html信息进行信息的搜索和采集最后,将获取的信息进行相关的操作,输出或者保存如下图# 获取html的方法def getHTMLtext(url): return ""# 将获取的html信息提取,并将之填写到对应的表格中def fillUnivList(text): univList原创 2020-05-25 22:51:56 · 567 阅读 · 0 评论 -
python爬虫之股票数据定向爬取
python爬虫之股票数据定向爬取功能描述目标:获取上交所和深交所所有股票的名称和交易的信息输出:保存到文件中技术路线:requests-bs4-re前期分析选取原则:股票的信息静态存在HTML页面中,非js代码生成,没有robots协议限制选取方法:查看网页原码不纠结于某个网站,多找信息源尝试没有成功,价格没有搜索到在源码中搜索价格,不存在搜索价格没有没有找到相关的价格信息没有找到相关价格信息没有找到相关的价格信息多此尝试之后,发现基本上都没有找到,于是找教原创 2020-05-23 00:02:26 · 1798 阅读 · 1 评论 -
python爬虫实战之图灵社区图书信息的爬取(找了久,才找到一个比较好爬取的网站)
python爬虫的第一次独立实战,使用BeautifulSoup库原创 2020-05-21 21:50:23 · 1135 阅读 · 2 评论 -
python爬虫实例之淘宝商品比价定向爬取(虽然网站已经改变,不能爬取,但是,我还是分析了一下)
python爬虫实例之淘宝商品比价定向爬取这次就模仿之前做的总结进行初次尝试目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格理解:获取淘宝的搜索接口淘宝页面的翻页处理技术路线:requests——re准备工作获取淘宝搜索商品的关键字接口如下图,自然而然地看见网址中地keyword后面,赫然地跟着“海贼王手办”,几个大字获取翻页的关键字接口尝试翻页之后,发现page后面对应的页码变为2,所以改变page的就翻页了获取各个商品的价格,名称的位置在网页原码中原创 2020-05-19 23:10:55 · 1053 阅读 · 0 评论 -
python爬虫之正则表达式和re库的使用(如果我都懂了,那你看这个也一定可以懂)
包含正则表达式的基本讲解和python应用,还是很简洁的,很实用的原创 2020-05-18 22:53:39 · 488 阅读 · 0 评论 -
第一个爬虫程序之定向爬取中国大学排名(收获良多,不仅仅是写个程序,更是编程的步骤方法)
收获很多,我会逐步讲解,对我有很多的好处,希望对各位也有借鉴原创 2020-05-16 00:02:08 · 855 阅读 · 1 评论 -
python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
python爬虫之网页信息表达形式爬到的html页面中信息那么多,你又不是那么专业,怎么获取到你想要的信息?先普及一些关于html页面中信息的组成,下面是我截取的百度的网页源码组成部分,除了url是蓝色的,明显的有三种颜色不同,形式各异的标签语言,分别是XML,JSON,YAMLXML看单词就知道跟HTML很像,确实是从HTML语言发展过来的XML成为扩展标签语言,主要以标签为主,组织信息标签是啥?标签是:< 标签名 标签属性(标签的大小,颜色等)>…(内部的具体信息)原创 2020-05-13 23:28:09 · 232 阅读 · 0 评论 -
python爬虫的BeautifulSoup的使用方法(自己精简的,只留下了实用的)
BeatutifulSoup先从标签说起标签又叫Tag,是书写前端网页的语言标记。下图是你看到的网页,背后是无数的标签构成的,每一个标签规定不同的属性,如确定文字大小位置等。组成:以 < p class = “title”>这是标签 < /p>为例< p > … < /p >,这一个成对的符号就是标签,p就是标签名称。一般特定名称的标签有特定的功能,不可乱用,若有意,自己了解一下内部的“ class = “title” ”就是标签的属性原创 2020-05-13 21:15:13 · 460 阅读 · 0 评论 -
python爬虫网站接口的使用——将网页上的输入内容的接口转移到对应的爬虫中(通过爬虫查询相关网页的信息)
通过爬虫将交互界面转移到对应的爬虫中。查身份证,查ip归属地。。。。或去百度搜素的结果等等原创 2020-05-12 22:57:16 · 2350 阅读 · 1 评论