今天用了一下Requests-HTML库(Python爬虫)

标签: python
456人阅读 评论(0) 收藏 举报
分类:

文档地址:http://html.python-requests.org/

试着爬取了《伯乐在线》:http://python.jobbole.com/all-posts/ (得罪得罪!)就爬一页,试试好用不!

具体怎么使用看文档吧,或者GitHub找!

代码如下:

from requests_html import HTMLSession
from datetime import datetime

def HtmlDownloader(url):
    try:
        if url is None:
            return
        session = HTMLSession()
        r = session.get(url)
        return r.html
    except:
        return

def HtmlParser(url,html,path):
    date = {}
    postList = html.find('div.post')
    for post in postList:
        date['name'] = post.find('a.archive-title',first=True).text
        date['img_url'] = post.find('div.post-thumb',first=True).find('img',first=True).attrs['src']
        detail_url = post.find('span.read-more',first=True).find('a',first=True).attrs['href']
        date['detail_url'] = detail_url
        date['detail'] = HtmlDetailedParser(detail_url)[:12]
        date['time'] = datetime.now()
        with open(path,'a',encoding='utf-8') as f:
            f.write(str(date))
            f.write('\n')


def HtmlDetailedParser(url):
    html = HtmlDownloader(url)
    content = html.find('div.entry',first=True).text
    return content

def HtmlMian():
    path = 'F:\python_work\\text.txt'
    url = 'http://python.jobbole.com/all-posts/page/1/'
    html = HtmlDownloader(url)
    HtmlParser(url, html, path)

HtmlMian()
查看评论

推荐一个解析HTML的Python库--Requests-HTML

推荐一个解析HTML的Python库–Requests-HTML HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库的人性化, 话不多...
  • anonymous_qsh
  • anonymous_qsh
  • 2018年02月25日 23:24
  • 2062

Requests-HTML解析HTML的Python库

HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库的人性化, 而近来作者出品了一个更加人性化的库,他就是Requests-HTML。需要...
  • ZhuQinglin_lucky
  • ZhuQinglin_lucky
  • 2018年03月05日 15:44
  • 172

Requests-HTML,解析 HTML 文档

Python 程序员,特别是做爬虫的同学都知道 HTTP 请求库 Requests,Requests 完美体现了 “for Humans” 这个词要表达的意思。它的作者是高颜值的摄影爱好者 kenne...
  • zhusongziye
  • zhusongziye
  • 2018年02月27日 20:39
  • 122

Python篇----Requests获取网页源码(爬虫基础)

Requests is an Apache2 Licensed HTTP library, written inPython, for human beings. Python’s standard...
  • guzhenping
  • guzhenping
  • 2015年11月18日 08:11
  • 25860

python 最牛的解析html的方法

  • 2011年10月31日 09:39
  • 15KB
  • 下载

今天用了一下Requests-HTML库(Python爬虫)

文档地址:http://html.python-requests.org/试着爬取了《伯乐在线》:http://python.jobbole.com/all-posts/ (得罪得罪!)就爬一页,试试...
  • qq_31845675
  • qq_31845675
  • 2018年03月09日 19:28
  • 456

python爬虫相关库安装

python爬虫相关库安装
  • wangjx92
  • wangjx92
  • 2017年12月25日 14:06
  • 96

python爬虫常用第三方库

这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib)。requests -网络库。grab – 网络库(基于pycurl)。pycurl – 网络库(绑定...
  • woshisunchi
  • woshisunchi
  • 2017年03月08日 18:05
  • 4593

[Html] -- Html助手和Request组件

原文地址: http://www.yiichina.com/tutorial/826 Html助手 1 .在@app\views\test的index.php中: //引入...
  • lmjy102
  • lmjy102
  • 2017年05月03日 11:07
  • 242

将用requests爬取下来的html网页存入本地文档中遇到UnicodeDecodeError

f = open('localFile.txt', 'w') f.write(html.text) f.close() 或者:print>>f, html.text 后者意...
  • zs15321583801
  • zs15321583801
  • 2018年03月09日 14:15
  • 9
    个人资料
    持之以恒
    等级:
    访问量: 1万+
    积分: 327
    排名: 24万+
    最新评论