2018年07月_crazyBird_GJY

转载 Python处理HTML转义字符的5种方式

写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是 HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。什么是转义字符在 HTML 中 <、>、& 等字符有特殊含义（<，> 用于标签中，& 用于转义），他们不...

2018-07-30 16:28:32 2687

转载 MySql数据实现查重、去重的实现

假设有一个表user，字段分别有id–nick_name–password–email–phone，分情况如下（注意删除多余记录时要创建临时表，不然会报错）：一、单字段（nick_name） 1、查出所有有重复记录的所有记录 select * from user where nick_name in (select nick_name from user group by n...

2018-07-27 09:58:02 1284

转载 Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)

urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了，我们可以利用它来抓取远程的数据进行保存哦，下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法，下面一起来看看。 python3 抓取网页资源的 N 种方法 1、最简单 1 import urllib.request 2 3 ...

2018-07-20 15:16:55 277

#!/usr/bin/env python #encoding: utf-8 import re url = 'https://113.215.20.136:9011/113.215.6.77/c3pr90ntcya0/youku/6981496DC9913B8321BFE4A4E73/0300010E0C51F10D86F80703BAF2B1ADC67C80-E0F6-4FF8-B570-7D...

2018-07-17 15:32:09 1310

转载 Python 下载图片的三种方法

import osos.makedirs('./image/', exist_ok=True)IMAGE_URL = "http://image.nationalgeographic.com.cn/2017/1122/20171122113404332.jpg" def urllib_download(): from urllib.request import urlretrieve ...

2018-07-15 15:27:18 672

转载 Python中xml和json格式互转

Python中xml和json格式是可以互转的，就像json格式转Python字典对象那样。xml格式和json格式互转用到的xmltodict库安装xmltodict库C:\Users\Administrator>pip3 install xmltodictCollecting xmltodict Downloading xmltodict-0.11.0-py2.py3-none-any...

2018-07-11 14:17:38 2562 1

转载 python利用lxml读写xml格式文件

之前在转换数据集格式的时候需要将json转换到xml文件，用lxml包进行操作非常方便。1. 写xml文件a) 用etree和objectifyfrom lxml import etree, objectify E = objectify.ElementMaker(annotate=False) anno_tree = E.annotation( E.folder('VOC2014_in...

2018-07-11 14:11:50 353

qq_38839677的博客