![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
无奈的角斗士
这个作者很懒,什么都没留下…
展开
-
request库爬虫实例
requests库api解释: requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接 params : url中的额外参数,字典或字节流格式,可选 **kwargs: 12个控制访问的参数 request.get()返回response对象 Response对象属性 属性 说明 ...原创 2018-10-22 15:42:56 · 4394 阅读 · 0 评论 -
re库入门
1.正则表达式(regular expression) 正则表达式是用来简洁表达一组字符串的表达式 2.正则表达式的常用操作符 操作符 说明 实例 . 表示任何单个字符 [] 字符集,对单个字符给出取值范围 [...原创 2018-10-28 21:27:07 · 637 阅读 · 0 评论 -
BeautifulSoup库的使用
1.安装 这里使用最方便的安装方式,在cmd中输入命令(前提电脑安装了pip) pip install beautifulsoup4 2.beautifulsoup4的基本元素 基本元素 说明 Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾 Name ...原创 2018-10-25 22:47:08 · 461 阅读 · 0 评论 -
requests-beautifulsoup爬取大学排名网站
1.根据url爬取页面内容 def getHTMLText(url): try: r = requests.get(url,timeout=30)#设置超时时长为30s r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" 2.使用beautifuls...原创 2018-10-26 14:08:20 · 608 阅读 · 0 评论 -
requests-BeautifulSoup爬取美女贴吧图片
xx才是第一生产力 爬取页面http://tieba.baidu.com/p/2166231880 1.getHtml(url)根据页面链接获取页面内容,值得值得注意的是这里使用了see_lz=1的参数获得只看楼主的页面,防止其他图片的干扰 2.getImgUrl(ulist,html)使用了bs4库的find_all()方法得到所有图片的链接并存储到ulist中 3.downloadIm...原创 2018-10-30 21:13:58 · 2338 阅读 · 0 评论 -
requests-beautifulsoup-re爬取股票行情信息
问题: 想利用python技术爬取网上股票的行情信息 目标网站: 东方财富网 http://quote.eastmoney.com/stocklist.html 百度金融 https://gupiao.baidu.com/stock/ 思路: 观察百度金融网站,在它的链接后加上股票id.html就可以获得该股票的行情信息页面 观察东方财富网的源代码可知股票id信息镶嵌在HTML...原创 2018-11-07 15:36:54 · 1213 阅读 · 0 评论