python
星河呀
承担呼吸的累赘和心跳的负荷,乐此不疲。
展开
-
python 常用的几个内模块和外模块
from datetime import datetimeprint('获取当前时间:')now = datetime.now()print(now)print(type(now))print('获取指定日期和时间:')dt = datetime(2015, 4, 19, 20, 20)print(dt)from collections import dequeq=deq...原创 2018-09-25 19:36:54 · 273 阅读 · 0 评论 -
python爬虫的re库(正则表达式匹配)
re库是python中自带的一个库,不需要外部导入。它主要是支持正则表达式匹配。下面来说一下其主要功能函数:函数说明re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象。re.match()在一个字符串的开始位置起匹配表达式,返回match对象re.findall()搜索字符串,以列表类型返回全部能匹配的子串re....原创 2018-11-12 21:14:59 · 875 阅读 · 0 评论 -
python爬取豆瓣影评
看的别人的代码 爬取某部影片的影评 没有模拟登录只能爬6页# -*- encoding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reimport randomimport ioimport sysimport time# 使用session来保存登陆信息s = requests.sess...转载 2018-10-29 17:37:01 · 5801 阅读 · 0 评论 -
python 实现多线程并发执行 【join函数】
主线程启动一个子线程t并等到t线程结束后才执行:import threadingimport timedef reading(): for i in range(5): print("reading", i) time.sleep(1)t = threading.Thread(target = reading)t.setDaemon(Tr...原创 2018-09-29 22:59:01 · 6989 阅读 · 0 评论 -
python 图片基础爬取框架
import requestsimport osurl = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root = "D://pics//"path = root + url.split('/')[-1]try: if not os.path.exists(root): ...原创 2018-10-08 14:50:07 · 341 阅读 · 0 评论 -
python 网络爬虫的Robots协议
网络爬虫的尺寸大致分为3种:而第一种大致占到了90%。由于网络爬虫的存在,服务器会因为网络爬虫造成很大的资源开销,比如一个普通人一定时间内访问上十次,而爬虫可能会访问十万次或者百万次。如果一个服务器性能较差,可能会承受不来这个规模的访问。因此网络上对爬虫有一定的制约,对于一些不友好的爬虫,甚至可能会涉及到触犯到法律。 现在一般的网站都会对爬虫做出限制,大致分为两种:现在说一...原创 2018-10-07 12:53:32 · 2878 阅读 · 0 评论 -
python 爬虫实例 爬取中国大学排名
import requestsfrom bs4 import BeautifulSoupimport bs4def gegHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding ret...原创 2018-10-13 11:56:21 · 1524 阅读 · 0 评论 -
python 爬取网页的通用代码框架
爬取网页的通用代码框架就是一组代码它可以准确的 可靠的爬取网页上的内容。但是这样的语句不是一定成立的,因为网络连接有风险。常见的异常有:而raise_for_status方法可以返回所引发的httperror异常。爬取网页的框架代码如下:import requestsdef getHTMLText(url): try: r = request...原创 2018-10-06 16:19:43 · 4981 阅读 · 0 评论 -
python Request库的get()方法
1. Request库的get()方法:最通常的方法是通过r=request.get(url)构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。url是什么?url是通过http协议存取资源的一个路径,它就像我们电脑里面的一个文件的路径一样。 ...原创 2018-10-06 14:28:22 · 212728 阅读 · 10 评论 -
python 理解Beautiful Soup库的基本元素
理解Beautiful Soup的基本元素是理解Beautiful Soup库的基础。首先我们说明一下Beautiful Soup库能干什么。我们以打开html文件为例。任何一组html文件它都是以尖括号为组的标签组织起来的。而这些标签建立起来的东西我们称之为标签树。而Beautiful Soup库是解析,遍历,维护标签树的功能库。标签的具体格式如图:Beautiful...原创 2018-10-11 20:01:40 · 354 阅读 · 0 评论 -
python 正则表达式
正则表达式是程序设计当中一个很重要的部分。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。 python的正则表达式需要先引入re 模块 正则表达式以r引导 例如:import rereg = r"\d+"m = re.search(reg, "abc123cd")print(m)search为re中...原创 2018-09-25 22:04:24 · 197 阅读 · 0 评论 -
python 爬取猫眼电影排行数据
爬取的是电影的名称 排名 演员 上映时间 评分 等(话不多说看代码就懂了)。用的是正则表达式进行匹配,实现的是一个最基本的对网页的爬取功能。import requestsimport reimport jsonimport timedef get_one_page(url): try: headers = { 'User-Agent':'Mozilla/5...原创 2019-01-21 18:52:06 · 742 阅读 · 0 评论