python爬虫
文章平均质量分 89
#叫啥名字呢
XX大学XX厂,打工人
展开
-
python爬虫教程_ 2.BeatifulSoup解析网页:基础
BeautifulSoup 是一个爬虫小帮手,是当前最流行最贱的勇于网页抓取的python库之一。先说一下爬网页的流程:选取要爬的网址(url)使用python来登录上这个网址(urlopen)读取网页信息(read()出)将读取的信息放入BeatifulSoup使用BeautifulSoup选取tag信息等(代替正则表达式) ...原创 2018-05-24 23:11:07 · 929 阅读 · 0 评论 -
python爬虫教程_1.网页基础
之前在微信公众号上面看到一个关于python制作艺术签名,感觉很有意思哈~是利用python抓取了一个签名网站(具体的代码我发布在github上面啦,有兴趣的盆友可以去下载玩一玩) 一起再系统学习一下python网页爬虫,欢迎各位大佬交流~一、了解网页: 在学习爬虫之前,首先要搞懂网页,而支撑起这些光鲜亮丽的网页就是一些代码,这些代码就是HTML,HTML是一种浏览器(...原创 2018-05-24 20:26:27 · 468 阅读 · 0 评论 -
Python爬虫--嗅事百科小练习~(简单的反爬处理)
呃呃呃,作为一个爬虫小白,先找一些简单的例子练练手,大神勿喷,我正在学习=_=项目内容: 用python 爬取嗅事百科(我用的是python2.7)使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行。程序功能: 在自定义文本中浏览嗅事百科解释说明: 嗅事百科主页面链接:我是嗅事百科,http://www.qiushibaike.com/hot/page/...原创 2018-06-16 11:15:24 · 554 阅读 · 1 评论 -
嗅事百科抓取段子的两种方法--BeautifulSoap抓取并解析网页流程
一、BeautifulSoap1.首先必须要导入bs4库,创建BeautifulSoap对象#coding=utf-8from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #html 为下载的网页,lxml为解析器2.BeautifulSoap主要掌握三种方法find_all('tag') 搜索当前所有的tag...原创 2018-06-16 17:15:20 · 1345 阅读 · 0 评论 -
链接爬虫实战(CSDN博客)
#coding=utf-8"""author:susudate:2018/6/25function:get the links of blog"""import reimport urllib.requestdef getlink(url): #模拟成浏览器 headers = ("User-Agent","Mozilla/5.0 (Linux; Android 6.0; ...原创 2018-06-25 11:10:21 · 167 阅读 · 0 评论 -
Anaconda中python2和python3切换
切换成功~参考该博客:https://blog.csdn.net/infin1te/article/details/50445217转载 2018-06-19 09:12:31 · 1647 阅读 · 0 评论 -
python爬虫的异常处理
进行异常处理我们经常使用try....except语句,在try中执行主要代码,在except中捕获异常信息,并进行相应的异常处理。一、爬虫中异常主要有两大类: (1)URLError类 (2)HTTPError类def error_process(): try: import urllib.request import urllib.error...原创 2018-06-27 11:06:19 · 6371 阅读 · 1 评论 -
python多线程
一、概念 单线程:串行执行,即执行流程在一条线上 多线程:并行执行,即执行流程在多条线上多任务可以由多进程完成,也可以由一个进程的多个线程完成。进程由若干个线程组成,一个进程至少包含一个线程。线程是操作系统直接支持的执行单元,许多高级语言都是内置多线程的支持。python也不例外。二、python中多线程的库介绍: thread 和threading两个标准库 ...原创 2018-06-27 14:25:20 · 2956 阅读 · 1 评论