爬虫(二)

原创 2018年04月15日 20:31:43

代码作用:将网页的源码保存在本地文件中

代码:

import requests
html=requests.get("http://www.youku.com")


print(html.encoding)
print(html.apparent_encoding)
html.encoding=html.apparent_encoding

with open('text.txt','w',encoding='utf-8') as f:
    f.write(html.text)

执行结果:

F:\python\pachong\venv\Scripts\python.exe F:/python/pachong/pachongpayuanma.py
ISO-8859-1
utf-8

Process finished with exit code 0

在项目文件夹中生成了优酷源码的txt文件

#两个print是我用来检测中文的输出格式的

#请求成功会返回给你内容,然后内容需要根据编码方式进行解析,encoding是默认的编码,而apparent_encoding是对内容分析之后推测出用什么编码

#下面的代码是我网上看到后参考的,我用下面的代码运行之后也能生成源码的txt文件,但是txt文件里的中文是乱码



知乎爬虫(二)

JAVA爬虫--增加多线程爬取 1.项目更新 由于工作原因,博主从上海飞到了遥远的呼和浩特→_→,继续上一篇文章之后,其实项目一直在更新,但是博客却没有跟上,过了好几个月才更新~我们的项...
  • u011397715
  • u011397715
  • 2016-01-12 22:41:27
  • 345

python3爬虫(二)实战- 爬糗事百科

python3 爬虫实战
  • youngbit007
  • youngbit007
  • 2017-03-09 23:00:34
  • 1952

爬虫系列(二)——网页解析Jsoup

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。     ...
  • Daybreak1209
  • Daybreak1209
  • 2017-02-20 17:35:36
  • 733

Java学习-简单爬虫系统

简单的爬虫系统(java版)
  • www_131374
  • www_131374
  • 2017-09-06 07:18:18
  • 222

Python 爬虫实战(二):使用 requests-html

Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requ...
  • wuxiaolongtongxue
  • wuxiaolongtongxue
  • 2018-03-14 20:56:48
  • 30

Python爬虫利器之Beautiful Soup的用法

1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、...
  • houzhiwen_yy
  • houzhiwen_yy
  • 2016-09-20 16:52:34
  • 2422

Python爬虫利器Beautiful Soup的用法

一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出H...
  • ccweb
  • ccweb
  • 2016-04-17 07:36:35
  • 606

Python爬虫实战(二):爬取天涯帖子(只看楼主)

先上代码 #coding=utf-8 import requests from bs4 import BeautifulSoup def getHtml(url): page = req...
  • qq523176585
  • qq523176585
  • 2017-09-04 12:52:11
  • 28568

编写简单的网络爬虫 (python3.2)

我这里分几个部分谈谈 网络爬虫的原理:-->搜索引擎? 一、爬虫爬取网页的基本步骤大致相同:1) 人工给定一个URL 作为入口,从这里开始爬取。 万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶...
  • database_zbye
  • database_zbye
  • 2014-08-25 22:30:24
  • 15094

[爬虫源码]和大家分享一下瓜子二手车上的二车手信息爬虫源码

使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息
  • qq_35994328
  • qq_35994328
  • 2016-12-09 16:53:47
  • 688
收藏助手
不良信息举报
您举报文章:爬虫(二)
举报原因:
原因补充:

(最多只允许输入30个字)