python爬虫
梦醒时候
人生似梦,生生死死,沉浮一世。
展开
-
入门python3爬虫需要掌握的知识与技巧
近期学了几天的python爬虫,在一个人瞎摸索中吸取了很多经验,在此把自己的初学者学习的经验拿出来分享。 下面讲的是python3,没了解过python2,不过似乎有些地方两者区别很大。 入门python3爬虫需要对一些库和模块有一定的了解,还需学会查看网页源代码的技巧,并了解一些爬虫框架。一、认识urllib库urllib是用于获取网络资源的库,python3自带。 初学爬虫者,主原创 2017-12-02 01:34:43 · 6491 阅读 · 0 评论 -
Python爬虫——简单地爬取壁纸图片
注意事项本博客爬取的壁纸是百度网址上的图片,直接百度”壁纸”,即可进入该网址。 爬取图片,主要理解的地方是: 首先通过 主站的url 获取 图片网址信息,再利用正则表达式找到各个图片的链接,接着通过 图片链接 获取 图片信息,直接下载图片。爬虫代码import osimport reimport urllib.request# 打开网址,获取网址信息def openUrl(url):原创 2018-05-06 20:54:46 · 2327 阅读 · 0 评论 -
python爬虫——爬取起点中文网作品信息
首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息。 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息。 网页下面有跳转其他页的选项。 我们需要找到网址规律,用来编写一个自动遍历所有页面网址的程序。 开始进来是这样的网址 https://www.qidian.com/all 但是点击下面的跳页选项中的1,会发现变成这样子了。原创 2017-12-13 19:15:48 · 12175 阅读 · 5 评论 -
从Manga Reader爬取我喜欢的漫画
自去年十月份实习后,就没碰过博客了。今天偶然间翻到了一年前为了看一个韩国漫画而写的一个爬虫脚本。也许过一段时间,这个脚本就彻底消失了。为了不让它消失,就存到我的博客上吧。下面直接上代码,技术用的不是很多,主要的技术已经在这篇博客讲解过了——爬取起点中文网作品信息''' 为了从https://www.mangareader.net这个漫画网站上 爬取漫画图片,特意做此代码'...原创 2019-04-02 16:35:28 · 3323 阅读 · 1 评论