2017年06月_Pop_Rain

07月 06月 05月 04月 03月

原创 BeautifulSoup与正则_简单爬虫python3实现

本文的内容python3自我实现代码见最下方的代码============以下转载自：http://blog.csdn.net/w93223010/article/details/20358683===============本节的内容主要是如何使用一个Python 写的一个 HTML/XML的解析器——BeautifulSoup，用它将上一节生成的result文件(就是抓取保存的网页源码

2017-06-12 22:48:23 3402

转载 python3抓取网页解码问题！

在网页抓取时，经常遇到网页编码问题，以下是自己总结的干货一、几篇文章字符串编码与Python 3编码：http://blog.csdn.net/wangtaoking1/article/details/51326754 python3 和 python2 的编码与解码差别很大吗？：https://www.v2ex.com/t/343040Python 3的bytes/str之别

2017-06-12 16:22:20 3248

转载查看网页是否压缩gzip+编码方式

一、查看网页是否压缩gzipreq = urllib.request.Request(url)html = urllib.request.urlopen(req)print(html.info().get('Content-Encoding')) #print(html.info())能查看更多信息二、查看网页编码方式在学习Python爬取网页的时候，我们经常会遇到编

2017-06-12 14:20:51 1389

原创 python3去除str中的n、r

1.替换所有str1 = "sdaasdqw\n"ste1 = str1.replace("\n","")print(str1)2.只是去除两头的str1 = "sdaasdqw\n"str1 = str1.strip("\n\r")print(str1)

2017-06-12 13:57:09 2656

原创从url中提取域名的几种方法

自己用python3实现的方法：import refrom urllib import parse#from urlparse import urlparsetopHostPostfix = ( '.com','.la','.io','.co','.info','.net','.org','.me','.mobi', '.us','.biz','.xxx','.ca','

2017-06-12 11:12:34 10400

BOW图片sift分类代码

BOW图片sift分类代码，基于李飞飞05年LDA论文生成的模型代码

2017-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人