- 博客(7)
- 收藏
- 关注
转载 Python处理HTML转义字符的5种方式
写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有 JSON 格式,有 XML 文档,不过大部分还是 HTML 文档,HTML 经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。 什么是转义字符 在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不...
2018-07-30 16:28:32 2687
转载 MySql数据实现查重、去重的实现
假设有一个表user,字段分别有id–nick_name–password–email–phone,分情况如下(注意删除多余记录时要创建临时表,不然会报错): 一、单字段(nick_name) 1、查出所有有重复记录的所有记录 select * from user where nick_name in (select nick_name from user group by n...
2018-07-27 09:58:02 1284
转载 Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,下面一起来看看。 python3 抓取网页资源的 N 种方法 1、最简单 1 import urllib.request 2 3 ...
2018-07-20 15:16:55 277
转载 Python正则替换字符串函数re.sub用法
#!/usr/bin/env python #encoding: utf-8 import re url = 'https://113.215.20.136:9011/113.215.6.77/c3pr90ntcya0/youku/6981496DC9913B8321BFE4A4E73/0300010E0C51F10D86F80703BAF2B1ADC67C80-E0F6-4FF8-B570-7D...
2018-07-17 15:32:09 1310
转载 Python 下载图片的三种方法
import osos.makedirs('./image/', exist_ok=True)IMAGE_URL = "http://image.nationalgeographic.com.cn/2017/1122/20171122113404332.jpg" def urllib_download(): from urllib.request import urlretrieve ...
2018-07-15 15:27:18 672
转载 Python中xml和json格式互转
Python中xml和json格式是可以互转的,就像json格式转Python字典对象那样。xml格式和json格式互转用到的xmltodict库安装xmltodict库C:\Users\Administrator>pip3 install xmltodictCollecting xmltodict Downloading xmltodict-0.11.0-py2.py3-none-any...
2018-07-11 14:17:38 2562 1
转载 python利用lxml读写xml格式文件
之前在转换数据集格式的时候需要将json转换到xml文件,用lxml包进行操作非常方便。1. 写xml文件a) 用etree和objectifyfrom lxml import etree, objectify E = objectify.ElementMaker(annotate=False) anno_tree = E.annotation( E.folder('VOC2014_in...
2018-07-11 14:11:50 353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人