如何把Python爬取的网页保存为.txt文件

最新推荐文章于 2024-06-28 16:48:54 发布

Zhang_Jackson

最新推荐文章于 2024-06-28 16:48:54 发布

阅读量1.6w

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/Zhang_Jackson/article/details/79230843

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

注意问题：涉及到中文时一定要在前面加 #encoding: utf-8

获取网页要知道返回的类型，可以先用type（）方法去验证返回的数据类型

# encoding: utf-8

import requests
import urllib
import urllib2
postdata = urllib.urlencode({
    'username': "Zhang_Jackson",
    'password': 'ok',
    'continueURI': 'http://www.verycd.com/',
    'fk': '',
    'login_submit': 'Login'
})
headers = {
    'User-Agent': 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4549.400 QQBrowser/9.7.12900.400'}

req = urllib2.Request( url='http://secure.verycd.com/signin/*/http://www.verycd.com/', data=postdata,headers=headers)result = urllib2.urlopen(req)

# print type(result)# print type(result.read())

html = result.read()

sf =open('jackson.txt', 'wb')

sf.write(html)sf.close()

print html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Zhang_Jackson

关注关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

简单爬取静态网页的代码并存为Txt文件

qq_38268886的博客

06-20

3065

第一步:获取页面(引入requests模块)import requests link='http://tieba.baidu.com/p/5753427007' headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.339...

python 爬取页面内的.ts文件并合并保存

大蛇王的博客

06-29

8265

一般网站的视频都是分段加载的，简单说就是把一个视频切成多个片段来加载，每个分段都会有不同的url地址。这些url地址列表，会存放在一个.m3u8文件里。首页打开待爬取的页面获取ts文件列表，按F12查看页面内容，ctlr+F 搜索 m3u8,找到这个地址。然后我们拿到这个地址，去读取里面内容。 import requests url="https://xxx.sdhdbd1.com/52av/20210629/A%e5%9b%bd%e4%ba%a7%e8%87%aa%e6%8b%

参与评论您还未登录，请先登录后发表或查看评论

使用python的scrapy模块爬取文本保存到txt文件

12-23

使用python的scrapy爬取文本保存为txt文件编码工具 Visual Studio Code 实现步骤 1.创建scrapyTest项目在vscode中新建终端并依次输入下列代码： scrapy startproject scrapyTest cd scrapyTest code 打开项目scrapyTest（vscode自动生成下列文件） 2.源代码 pipelines.py class ScrapytestPipeline(object): def open_spider(self,spider): #创建my.txt文件，并将字符集设为utf

利用python抓取页面并将页面文件生成txt文件导出

weixin_37861326的博客

07-25

1万+

分析需求： 1）利用python抓取网页页面 2）将抓取到的网页生成txt文件导出到电脑桌面准备工作：电脑构建python环境安装python编辑环境IDE(本文所述，利用pyCharm编辑器) 新建项目文件 1）项目中新建pydemo.py 文件 2）配置python解释器 3）编辑文件代码如下 import urllib import urllib....

Python爬虫爬取笔趣阁小说，并且保存到TXT文件！

最新发布

Python_Alex的博客

06-28

2582

如果你对Python感兴趣，想要学习Python，希望可以帮到你，一起加油！以上是给大家分享的。

一、python爬网页保存txt文档

头发浓密的萌新的博客

04-06

1698

Auto.js实现自动刷视频，点赞脚本（一）此文转载自：https://blog.csdn.net/qq_40442753/article/details/110157863 Auto.js 是个基于 JavaScript 语言运行在Android平台上的脚本框架。可以设置刷多少个视频，每个视频播放的时间！有不明白的地方可以私信我。直接复制代码就可以运行。 4.后续功能功能会持续更新，下期将点赞的代码提供给大家。谢谢大家的支持！ ...

模拟浏览器登录，并爬取网页标题和文本，保存到txt文件，直接写python代码

weixin_42592399的博客

02-10

163

您好，以下是爬取网页标题和文本，并保存到txt文件的Python代码示例： import requests from bs4 import BeautifulSoup # 模拟浏览器登录 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like ...

python爬取携程网评论.zip

11-10

最后，可以使用pandas的to_csv()或to_json()方法将数据保存为CSV或JSON文件，以便后续的分析或可视化。值得注意的是，网络爬虫在使用时应遵循网站的robots.txt协议，尊重网站的版权，不进行非法商业用途，且需注意...

用python爬取网页并导出为word文档.docx

05-06

在Python编程中，爬虫是一种常见的技术，用于自动获取网页内容。MongoDB作为一个非关系型数据库，因其灵活性和高性能在Web应用数据存储方面扮演着重要角色。本篇内容将介绍如何利用Python爬虫抓取网页内容，并将其...

python爬取招聘网信息并保存为csv文件

04-02

【Python爬虫获取招聘网站信息并保存为CSV文件】在Python编程中，网络爬虫是一种常用的技术，用于自动化地从互联网上抓取信息。在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为...

[Python]HTML转换为TXT的脚本

weixin_34072857的博客

02-09

307

1 from formatter import AbstractFormatter, NullWriter2 from htmllib import HTMLParser34 def _(str, in_encoder="gbk", out_encoder="utf8"): 5 return unicode(str, in_encoder).encode(ou...

python 爬取HTML内容并保存到txt文件内

cherey的博客

12-09

4139

# @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails # @Software: PyCharm # @used: 爬取任意页面中任意数据 import re import urllib.request from Utils.Log import Logger Logger_message = Logger() # 爬取gbk网页(爬取html页面文件) html = urllib.request.urlopen(".

爬取网站文字并整理格式(HtmlAgilityPack)写入文本文件txt

jiidd的专栏

10-06

355

爬取网站小说并整理格式(HtmlAgilityPack)写入文本文件txt

python 爬虫并把网页中的文字写到txt中

每日提升一点点

03-18

2565

import requests from bs4 import BeautifulSoup from lxml import etree link='http://www.chinanews.com/gn/2020/03-18/9129903.shtml' header={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A...

如何使用python通过url下载文件？

m0_58477260的博客

11-29

4394

Python是一种高级编程语言，被广泛用于数据分析、机器学习、人工智能等领域。其中一个非常实用的应用就是使用Python通过url下载文件。在本文中，我们将从多个角度分析如何使用Python通过url下载文件。一、使用urllib.request下载文件Python的标准库中的urllib.request模块提供了下载文件的功能。下面是一个简单的例子，用于从url中下载文件并保存到本地：```pythonimport urllib.requesturl = 'http://example.com/file.

【Python】用xpath爬取网页文字保存到txt中（含有文字解码代码）

刘佳皓_Leo

01-14

3663

hello😁，大家好，最近新学习了xpath在网站上爬取静态文字，就想着做一个东西，恰好前几天翻看博客是看到了wordcloud（词云）⛅这个库，就有一个想法涌入我的脑中，爬取2022年比较火的几个梗生成词云。但是受技术的限制好多想法实现不了，比如想让词云上某个梗的大小由某个梗的热度决定……

python爬取网文存入txt文件

m0_46417197的博客

11-13

1万+

文章目录一、网络爬虫是什么？二、使用步骤1.引入库2.数据请求2.数据解析3.数据存储4.完整代码一、网络爬虫是什么？百度百科给出的定义：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本文以爬取诗词名句网的<<水浒传>>为例二、使用步骤 1.引入库 requests是python中一款基于网络请求的模块，功能非常强大，简

数据保存！！！Python 爬取网页数据后，三种保存格式---保存为txt文件、CSV文件和mysql数据库