Python数据采集
rootlh;
普通开发者如果习惯于在架构师封装好的东西之上,只专注于做业务开发,那久而久之,在技术理解和成长上就会变得迟钝甚至麻木。
展开
-
urllib基本用法
添加浏览器请求头下载网页并打印出网页html代码from urllib import request import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') req = request.Request("http://www.baidu.com")req.add_header(原创 2017-02-12 10:13:46 · 344 阅读 · 0 评论 -
BeautifulSoup使用
官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html将网站标准格式输出:from bs4 import BeautifulSouphtml_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="t原创 2017-02-12 13:40:14 · 291 阅读 · 0 评论