Python爬虫(bs4)-3

1.解析JSON数据

利用Python内建模块

import json
Json对象 = json.load("JSON文本")
json对象.get(XXXXX)#获得指定XXXX键值对

由于JSON比较类似python的数据结构字典
将JSON映射成字典格式,变成JSON数组列表

2.文档编码

编码类型
ASCII 一字节编码
UTF-8 至少一字节编码(根据开头位判断是否为一)
      UTF-8可兼容ASCII 
ISO   根据不同语言使用不同位数

decode()函数

decode("编码类型","错误处理方式")

可以在文本编码时进行指定编码类型

3.解析纯文本(.txt)

直接使用urilib模块

from urllib.request import urlopen

text = urlopen("指定URL")
print(str(text.read(),"指定编码格式"))

使用read()方法直接显示文本

4.解析CSV

python csv库主要面向本地文件

import csv

需要将网络文件下载到本地
另一种方式:
将网络的CSV文件处理为字符串,再转变为StringIO对象
好处:
文本处理均在内存,不用下载占据存储资源
StringIO对象保留有文件属性

from urllib.request import urlopen 
from io import StringIO
import csv

data = urlopen("指定URL").read().decode("指定编码")#转化为字符串
dataFile = StringIO(data)#转化为StringIO对象
csvReader = csv.read(dataFile)

for row in csvReader:
      print(row)

5.解析PDF

使用库PDFMiner(python2)
PDFMIner3K(pythno3)
模块下载:https://pypi.python.org/pypi/pdfminer3k/
安装:

$python3 setup.py install

同样将PDF转化为StringIO对象

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值