爬虫
专注嗑糖一百年
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python3——爬虫(day1)
一、爬虫基本操作 1)爬虫 — 定向 —非定向 2)请求一个网址:https://www.autohome.com.cn/news/(获取新闻文章的标题) 对于http访问的请求,本质是返回一个字符串。 1、下载页面:https://www.autohome.com.cn/news/ 2、筛选:使用正则表达式 ...原创 2018-12-05 23:11:22 · 279 阅读 · 0 评论 -
python——爬虫学习day(3)
之前想着学习爬虫方面的知识,所以在一开始的时候学习做了一个小程序,提取新闻网站的新闻标题。现在要从头开始,学一点基础。以下内容是根据《Python爬虫开发与项目实战》一书学习整理的,如果内容涉及到侵权等问题,请联系本人删稿。 如果内容知识点有问题,也请联系本人,及时改正。 一、文件的读写 1、 读:with open ('e:\text\test.txt','r') as f: ...原创 2018-12-08 22:21:17 · 289 阅读 · 0 评论 -
python3——爬虫(day2)
基于前一天的内容,做了功能的增强 功能:可以获取新闻的标题内容和图片内容,并且保存图片到本地 import urllib3 from bs4 import BeautifulSoup import requests response=requests.get('https://www.autohome.com.cn/news/') response.encoding=response.app...原创 2018-12-06 21:49:12 · 274 阅读 · 0 评论 -
beautifulsoup——使用
基于前俩天的学习内容进行简单总结 soup = beautifulsoup('<html>.......<html>',features = 'html.parser') ——>soup.find() #找到第一个符合条件的 例:v1 = soup.find('div') #找到soup子类里面第一个div标签 v1 = soup...原创 2018-12-06 22:07:57 · 497 阅读 · 0 评论 -
requests 的安装及使用方法总结
requests网址:http://docs.python-requests.org/en/master/ requests是python的一个HTTP客户端库,跟urllib,urllib2(都是接受URL请求的相关模块,但是提供了不同的功能 )类似。requests相比二者的优点在于程序编写过程更接近正常URL 访问过程,并且好用。 安装方法(win7): win+R,输入cmd,进入...原创 2018-12-06 09:11:40 · 3204 阅读 · 0 评论 -
python——爬虫学习day(5)
以下内容是根据《Python爬虫开发与项目实战》一书学习整理的,如果内容涉及到侵权等问题,请联系本人删稿。 如果内容知识点有问题,也请联系本人,及时改正。 2、多线程 优点:a、可以把运行时间长的任务放到后台去处理 b、用户界面更加吸引人,比如,当点击一个按钮触发某事件时,可以通过进度条来显示处理的进度 c、程序的运行速度相比更快 ...原创 2018-12-14 17:33:18 · 281 阅读 · 0 评论 -
python——爬虫学习(day4)
以下内容是根据《Python爬虫开发与项目实战》一书学习时整理的,如果内容涉及到侵权等问题,请联系本人删稿。如果内容知识点有问题,也请联系本人,及时改正。 c、multiprocessing模块提供了一个Pool类来代表进程池对象 关于进程池的概念,请参见:https://blog.csdn.net/eagle_1036077338/article/details/72853178 Pool...原创 2018-12-09 22:00:40 · 255 阅读 · 0 评论
分享