爬虫
余音丶未散
J2EE,机器学习,Hadoop,Spark,时间序列分析
展开
-
Python爬虫urllib笔记(一)
#-*-coding:utf-8-*-import urlliburl="http://www.163.com/"htlm=urllib.urlopen(url)#所有gb2312全部写成gbk这样都不会乱码#print htlm.read().decode("gbk").encode("utf-8")#查看头信息# print htlm.info()# 查看状态码#pr原创 2016-08-31 19:50:58 · 550 阅读 · 0 评论 -
Python爬虫urllib2笔记(二)
urllib2升级模块--浏览器可访问爬虫访问返回403说明有防爬虫#-*-coding:utf-8-*-#urllib2升级模块--浏览器可访问爬虫访问返回403说明有防爬虫#F12查看Network(刷新)点击names查看Headers模仿用户登录import urllib2url="http://blog.csdn.net/q383700092"#模仿请求Requestr原创 2016-09-01 17:46:42 · 619 阅读 · 0 评论 -
Python爬虫urllib笔记(四)之使用BeautifulSoup爬取百度贴吧
BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)提取百度贴吧网页中的楼主发的图片# -*- coding:utf-8 -# # # BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)# pip install beautifulsoup4import urllibfrom bs4 impor原创 2016-09-01 17:51:09 · 1168 阅读 · 0 评论 -
Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
使用正则表达式提取百度贴吧网页中的楼主发的图片# -*- coding:utf-8 -import re #正则模块import urllib2import urllib#使用正则表达式提取百度贴吧网页中的楼主发的图片def get_content(url): html = urllib.urlopen(url) content = html.read(原创 2016-09-01 17:49:09 · 1139 阅读 · 0 评论 -
Python爬虫urllib2笔记(五)数据传送设置HeadersURLError
目录urllib2库里面的urlopen方法构造RequsetPOST和GET数据传送设置HeadersProxy代理的设置Timeout 设置使用 HTTP 的 PUT 和 DELETE 方法使用DebugLogURLErrorHTTP状态码HTTPError目录urllib2库里面的urlopen方法urlopen(url, data, timeout)第一个参数url即原创 2016-09-03 18:34:05 · 1396 阅读 · 0 评论 -
正则表达式的学习笔记
匹配 boolean 查找 替换 分割 删除(替换为空) 输出所有匹配到的字符串find()是部分匹配matches()全部匹配替换replaceAll分割str.split("(.)\\1+")删除replaceAll("[\\u4e00-\\u9fa5]", "")输出所有匹配到的字符串while (m.find()){str.substring(m原创 2016-10-24 17:38:27 · 799 阅读 · 0 评论