网络爬虫
凡事踹一踹
A simple coder.
个人博客: www.philuo.com
展开
-
python爬虫urllib与BeautifulSoup(一)
小白一枚,记录自己学习的过程。 今日的目的是爬取起点小说网的一章小说。 首先我们把需要的包导入 from bs4 import BeautifulSoup import urllib.request 为了防止反爬虫,还是得先模拟浏览器访问该网站。 模拟浏览器查看另一篇博。 req.add_header('User-Agent','Mozilla/5.0 (X11; Linux x86_64)...原创 2019-02-25 19:25:10 · 1362 阅读 · 0 评论 -
python爬虫urllib(二)
import urllib.request import urllib import re def demo(url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} html=urllib.request.Request(url...原创 2019-03-03 21:30:19 · 307 阅读 · 0 评论 -
正则表达式
https://blog.csdn.net/weixin_40907382/article/details/79654372 收藏一个听全的正则表达式转载 2019-03-04 10:04:34 · 80 阅读 · 0 评论