爬虫-python
o_w_olf
最新文章移步简书:https://www.jianshu.com/u/86b33b03008d
展开
-
urllib
urllib是python3.x中提供的一系列操作URL的库,它可以轻松的模拟用户使用浏览器访问网页。 使用步骤: 1、导入urllib库中的request模块:from urllib import request2、请求URLresp=request.urlopen('http://www.baidu.com')3、使用响应对象输出数据print(resp.read().decode("utf原创 2017-08-27 23:49:23 · 222 阅读 · 0 评论 -
BeautifulSoup的基本用法
from bs4 import BeautifulSoupimport re#一段代码html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a t原创 2017-08-31 00:35:05 · 319 阅读 · 0 评论 -
Requests库
解析json 保存二进制数据 上传文件 获取cookie 证书验证 代理设置: 认证设置:原创 2017-09-18 00:45:45 · 559 阅读 · 0 评论 -
利用urllib和BeautifulSoup爬取维基百科的词条
#引入开发包from urllib.request import urlopenfrom bs4 import BeautifulSoupimport re#请求URL并把结果用UTF-8编码resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")#使原创 2017-08-31 19:29:59 · 1009 阅读 · 0 评论 -
Urllib
urllib.request Handler Cookie:维持状态 获取cookie: 保存cookie: 利用保存的cookie打开网页: urllib.error(异常) urllib.parse(解析)原创 2017-09-10 11:00:09 · 282 阅读 · 0 评论 -
用python操作mysql
安装python库: 1、pip install pymysql 2、通过安装文件python setup.py install将从维基百科爬取的词条存入mysql:#引入开发包from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport pymysql.cursors#请求URL并把结果用原创 2017-09-01 21:44:35 · 277 阅读 · 0 评论 -
用python读取pdf文档
首先要安装库:pdfminer3kfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceMa原创 2017-09-03 17:46:53 · 609 阅读 · 0 评论