网络爬虫学习
文章平均质量分 75
浩瀚星辰nic
浮沉境,升华心,意念开,道象生,念无边,域永恒。
展开
-
网络爬虫新手学习记录
作为一个网络爬虫的初学者,写博客作为学习记录。 爬虫语言由python书写 现在写一个最简单的爬虫 import urllib url="www.baidu.com" html=urllib.urlopen(url) print(html) 这样就可以打印出百度搜索的首页的源代码了 接下来可以深化一下,并用一个强大的库requests,同时加上headers re是使用正则表达式所需要的库 im...原创 2018-12-01 20:30:07 · 309 阅读 · 2 评论 -
python网络爬虫(新手第一篇)
在正式学习爬虫之前,首先需要先了解一些基本知识。 整理了几个点: 1.注意爬虫的合法性,不违反Robots协议 (例如打开“www.taobao.com/roots.txt”即可查看淘宝网的Robots协议) 2.爬虫的三个流程 获取网页->解析网页->储存数据 3.常用的几个python库 urllib/requests/selenium re/BeautifulSoup/lxml原创 2018-12-01 22:10:23 · 325 阅读 · 0 评论 -
python网络爬虫(新手第二篇)
那我们从简单的爬虫开始入手 先介绍数据库,我们从urllib这个库开始说起 urllib这个库是python内置的HTTP请求库,包含request/error/parse/robotparser四个模块 我们要使用到request中的urlopen()方法,它可以实现最基础的请求发起。 而urlopen()中有很多参数,其中要爬取的网站的url不可以省略,而其他参数均可省略。 不过现在可以使用r...原创 2018-12-01 22:10:58 · 290 阅读 · 0 评论