用Python爬取文本信息

转载 2018年04月16日 09:19:44
import requests
import re
import time

headers={
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.638.0 Safari/534.16'
        }
res=requests.get('http://www.kugou.com/yy/rank/home/%7B%7D-8888.html')
f=open('E:/doupo.txt','a+')
def get_info(url):
    res=requests.get(url,headers=headers)
    contexts=re.findall('<p>(.*?)</p>',res.content.decode('utf-8'),re.S)
    for context in contexts:
        f.write(context+'\n')
        
if __name__ == '__main__':
    urls=['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i))
    for i in range(2,24)]
    for url in urls:
        get_info(url)
    time.sleep(2)
print('{}'.format(res))
f.close()


import requests
import re
import time


headers={
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.638.0 Safari/534.16'
        }#模拟浏览器抓取数据
res=requests.get('http://www.kugou.com/yy/rank/home/%7B%7D-8888.html')
f=open('E:/doupo.txt','a+')#以追加的方式创建文档
def get_info(url):
    res=requests.get(url,headers=headers)
    contexts=re.findall('<p>(.*?)</p>',res.content.decode('utf-8'),re.S)#用正则表达式匹配要查找的内容
    for context in contexts:
        f.write(context+'\n')
        
if __name__ == '__main__':
    urls=['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i))
    for i in range(2,24)]
    for url in urls:
        get_info(url)
    time.sleep(2)
print('{}'.format(res))
f.close()

Python爬虫实战:爬取官员官方信息

最近导师给了一个任务:用Python爬取中国官员的官方信息,然后将信息中的关键信息(时间地点任务blablabla)抽取出来,绘制他们的关系图。 千里之行始于足下,我就从Python爬虫开始。 首先上...
  • LucyGill
  • LucyGill
  • 2017-09-26 11:24:07
  • 744

Python下使用Scrapy爬取网页内容

上周用了一周的时间学习了Python和Scrapy,实现了从0到1完整的网页爬虫实现。研究的时候很痛苦,但是很享受,做技术的嘛。 首先,安装Python,坑太多了,一个个爬。由于我是wind...
  • qq_31573519
  • qq_31573519
  • 2017-03-27 20:21:34
  • 1779

用Python爬取拉钩网招聘职位信息

本文实现自动爬取拉钩网招聘信息,并将信息保存在本地文本中
  • d1240673769
  • d1240673769
  • 2017-07-15 18:42:44
  • 1135

python小试牛刀之爬取网页文本内容保存到本地

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和...
  • qq_37373203
  • qq_37373203
  • 2017-12-15 22:16:10
  • 288

Python爬虫---爬取股票信息

python 爬虫
  • Zach_z
  • Zach_z
  • 2018-02-11 01:47:53
  • 338

Python爬虫入门 | 2 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬...
  • DataCastle
  • DataCastle
  • 2017-12-15 14:11:18
  • 850

Python爬取微信好友信息,统计图片显示

  • 2017年08月25日 16:28
  • 59.48MB
  • 下载

Python爬虫爬取网页信息

  • 2017年03月13日 17:45
  • 213KB
  • 下载

python抓取知乎首页文本信息的简单实现

利用requests提供的方法得到网页中的html文件,然后用beautifulsoup提供的方法解析网页信息。find_all('a',{"class":"question_link"}):找出网页...
  • zzzzata
  • zzzzata
  • 2016-07-26 21:16:14
  • 468

Python实战1_3:爬取租房信息

需要爬取的资料网址: http://bj.xiaozhu.com/ 爬取信息: 爬取网页上300个房源信息,包括标题,地址,日租金,第一张房源图片链接,房东图片链接,房东性别,房东名字 代码fr...
  • yejing0609
  • yejing0609
  • 2016-06-29 12:45:31
  • 1392
收藏助手
不良信息举报
您举报文章:用Python爬取文本信息
举报原因:
原因补充:

(最多只允许输入30个字)