python爬虫文件格式_Python网络爬虫数据格式学习（转换headers、表单和urlencode数据为字典格式）...

最新推荐文章于 2024-02-28 14:53:35 发布

weixin_39827850

最新推荐文章于 2024-02-28 14:53:35 发布

阅读量472

点赞数

文章标签： python爬虫文件格式

最近在学习爬虫时经常要复制浏览器的headers和表单数据到Python进行操作，但是复制过来的IE的数据格式是对用制表符('\t')进行分隔，而Chrome复制过来的是用冒号(':')分隔，不能够直接转为字典格式使用。为了方便以后编程就自己写了个小程序进行转换。

Python的标准库应该有类似的方法，但自己找不到，知道的朋友麻烦告知下。谢谢！

# -*- coding: utf-8 -*-

"""

@author: Cy

"""

def strtodict(inputstr,sep=':',linesep='\n'):

#linesep为行分隔符标记，默认为换行符。

#sep为内部分隔符标记，默认为冒号

if linesep !='\n':

inputstr=inputstr.replace(linesep,'\n')

strlist=RemoveEmptyLineInList(inputstr.split('\n'))

strdicts={}

for line in strlist:

line=line.split(sep)

if sep==':':

strdicts[line[0]]=':'.join(line[1:])

else:

strdicts[line[0]]=line[1]

return strdicts

def RemoveEmptyLineInList(listObj):

newList = []

for val in listObj:

if val :

newList.append(val);

return newList

还发现了urllib库的urllib.parse.unquote()可以将IE浏览器里的已经urlencode的地址转化为原始数据。

tmppostdata=urllib.parse.unquote(urlencodedata)

postdata=strtodict(tmppostdata,sep='=',linesep='&')

2016年9月4日还发现了别人另外一种更简洁的代码：

dict([item.split('=') for item in url_encode_data.split('&')])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39827850

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫使用soup解析（并保存成固定格式文件）

谁说大象不能跳舞

05-08

877

爬取安徽省博物馆： import requests from bs4 import BeautifulSoup url = 'http://www.ahm.cn/Service/Leaveword/zxzx#page=' def get_info(url, data=None): wd_data = requests.get(url) soup = BeautifulSoup(...

Python网络爬虫基本库

Java/Python大数据成长之路

08-21

2605

网络爬虫（Web Crawler）是一种自动化程序，用于从互联网上采集信息。它通过自动访问网页并提取所需的数据，实现对大量网页的快速检索和数据抓取网络爬虫通常使用HTTP协议来访问网页，并通过解析HTML、XML等网页内容来提取数据。爬虫可以从一个起始点（如某个特定网页）开始，然后根据链接关系自动地遍历和抓取其他相关网页。

参与评论您还未登录，请先登录后发表或查看评论

万能图片爬虫（文件格式后缀丢失，请改成1.zip查看）

08-28

基于python写的一个图片爬虫，可以爬取绝大部分网站的图片（目前没有加代理功能），采用线程并发与一定的调度算法，性能在日吞吐量100W左右。嘿嘿，当然顺便是来赚点积分了，不要用于商业目的。

爬虫常用本地存储形式（TXT,JSON,CSV）

宋建国的博客

01-11

1004

一，TXT存储 TXT格式读写在本站中的详细解释 1.读取/写入模式 2.使用演示 #常规写法 file = open('explore.txt','a',encoding='utf-8') file.write ('\n'.join([question, author, answer])) file.write('\n'+ '= '*50 +'\n') file. close() #不用关闭指针的简化写法 with open('./song.txt','w',encoding='utf-8') .

网络爬虫之数据存储方式（json、csv、mysql）

指针先生

12-19

2313

不过所有记录都有完全相同的字段序列，相当于一个结构化表的纯文本形式，它比 Excel 文件更加简洁，XLS 文本是电子表格，它包含了文本、数值、公式和格式等内容，而 CSV 中不包合这些内容，就是特定字符分的纯文本，结构简单清晰。数组在JavaScript 中是方括号包裹起来的内容，数据结构为["Java""JavaScript"，“vb”...] 的索引结构在Javascript 中，数组是一种比较特殊的数据类型，它也可以像对象那样使用键值对，但还是索引用得多。同样，值的类型可以是任意类型。

Nutch爬虫工作流程及文件格式详细分析.doc

02-18

Nutch爬虫工作流程及文件格式详细分析！！！！！

python 爬虫客户端_python爬虫

weixin_34931370的博客

01-28

974

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。HTTP和HTTPSHTTP协议(HyperText Transfer Protocol，超文本传输协议)：是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版，在HTTP下加入SSL层。SSL(Secure Socket...

python的scrapy爬虫模块间进行传参_scrapy爬虫:scrapy.FormRequest中formdata参数详解

weixin_39921689的博客

12-14

875

1. 背景在网页爬取的时候，有时候会使用scrapy.FormRequest向目标网站提交数据(表单提交)。参照scrapy官方文档的标准写法是：# header信息unicornHeader = {'Host': 'www.example.com','Referer': 'http://www.example.com/',}# 表单需要提交的数据myFormData = {'name': 'Jo...

python中script爬虫_Python——爬虫

weixin_39598069的博客

12-06

1112

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据爬虫的本质:模拟浏览器打开网页，获取网页中我们想要的那部分数据浏览器打开网页的过程：当你在浏览器中输入地址后，经过DNS...

python爬虫一般格式

qq_44310495的博客

12-05

1570

写在前面：建议安装BeautifulSoup模块，写爬虫可以节省不少时间。一般出错，参考终端pip给出的建议。 pip3 install bs4 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 伴随bs4安装的还有 lxml 模块 pip3 install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com try except 图片来

【Python爬虫】存储格式化数据

点滴记忆

07-14

546

我们一直使用 print 方法打印爬虫获取的数据，接下来你将把这些数据保存到特定格式文件中。 CSV 格式 Python 提供了标准库 csv 来读写 csv 数据。新建一个 Python 文件，输入以下代码，并运行。 import csv file = open('movies.csv', 'w', newline='') csvwriter = csv.writer(file)...

总结爬虫各种格式

Sea_Merchants的博客

11-19

761

总结两种请求的爬虫格式

爬虫的一些小技巧总结

热门推荐

weixin_56067972的博客

11-15

2万+

爬虫存储数据为.csv文件

python爬虫数据保存到本地各种格式的方法

荼靡~

08-11

1万+

最近爬虫又解决了很多问题，算是保存这部分的吧。首先，我们如果想要抓取本地txt文件中的内容拿到特定网址去搜索。然后爬取搜索结果的话，这个很简单： f=open('C://Python27//1.txt') #只需要通过这句代码打开你本地对应路径的文件就OK 但是如果你想要打开excel表格呢？这里就需要下载xlrd库。百度搜索就可以，解压。在cmd中进入解压文件夹然后输

python爬虫输出格式问题

qq_40999273的博客

02-28

2748

最近学了python的爬虫爬取中国大学排名，然后输出格式对不齐真是为难我这个强迫症患者了。所以经过我的一番努力（随便瞎搞），终于！话不多说，上代码！代码内容有注解。那个chr(12288)指的是按照中文空格缩进。然后tqlt中的{4}是指按照foemat的第5个参数缩进（不知道是不是这样，但我是这么理解的）。如果不做处理，默认按照英文缩进，但我们大中国字和英语占位不一样嘛。 # 打印中国大...

python爬虫详解

小仙儿

07-11

1万+

python爬虫简介 1、基本概念 1.1、什么是爬虫网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。例如：传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具也存在着一定的局限性，通用搜索引擎的目标是尽可能大的网络覆盖率，返回的结果包含大量用户不关心的网页，为了解决上述问题，定..

python爬虫之xpath格式转换与去除多余标签、解决部分重定向问题的方法

小木的博客

07-11

1万+

写在前面的话：实习了半个多月，总结一下学到的内容，还有在做项目中遇到的问题及其解决方式。一. xpath的一些用法 1. 转换格式将解析过的 xpath 转换成 HTML 字符串为什么会用到这个，是因为之前在爬取一些js包含的内容时用到了js2xml 二. 数据库的连接 1. 连接为了项目的维护，所以形成了加入大量异常捕捉以及打日志的习惯，便于排错。 import pymysql pymysql.install_as_MySQLdb() from Log import Log log = Lo