2019寒假
秋瑾先生
这个作者很懒,什么都没留下…
展开
-
字符串的操作
用途背景:正则表达式专门用于匹配应用中的数据,简化字符串的处理程序,提供re模块来匹配正则表达式。字符串的格式化:pyhton中的格式化输出类似C语言的函数printf()、sprintf()格式化输出,因此要牢记格式化字符串代替字符的含义,下面给出一些常用的字符串替代符。符号含义% c格式化字符及其ASCII码% s格式化字符串% d格式化整...原创 2019-01-17 15:52:44 · 100 阅读 · 0 评论 -
爬虫入门实例(四)
import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText (url): try: r = requests.get(url, timeout = 30) # timeout 时间限制 r.raise_for_status() r.enc...原创 2019-01-23 16:50:06 · 151 阅读 · 1 评论 -
scrapy框架简单了解
scrapy:是一个遍历爬行网站 ,分析获取数据而设计的应用程序框架,原本设计用于屏幕抓取(网络抓取)也可以用来访问api来提取数据;广泛应用与数据挖掘、信息处理、历史片打包等等。“5+2”结构Engine:不需要用户修改控制所有模块之间的数据流根据条件触发事件Doenloader:不需要用户修改根据请求下载网页Scheduler:不需要用户修改对所有爬取请求调度管...原创 2019-02-15 11:26:50 · 172 阅读 · 0 评论 -
简单scrapy框架实例
打开cmd命令窗口,scrapy startproject python_demo。新建一个名为python_demo的工程文件夹。python_demo文件夹:scrapy.cfg——部署scrapy爬虫的配置文件python_demo/——scrapy框架的用户自定义python代码__init__.py——初始化脚本 (继承类)items.py——items代码模板(继承...原创 2019-02-15 16:36:16 · 225 阅读 · 0 评论 -
yield关键字
yield关键字:yield--------生成器生成器是一个不断产生值的函数包含yield语句的函数是一个生成器生成器每次产生一个值(yield语句),函数被冻结,被唤醒后在产生一个值优势节省储存空间响应更加迅速使用更加灵活...原创 2019-02-15 16:50:40 · 648 阅读 · 1 评论 -
BeautifulSoup中find,find_all
find()若希望会找到BeautifulSoup对象内的 任何第一个标签入口,使用find方法,返回标签内容。find(name,attrs, recursive, text, **wargs)#recuasive 递归,循环的; 默认true通过对name限定,查找标签对text限定,查找文本基于正则表达式的查找对attrs限定,查找标签的属性例如:attrs = {‘class...原创 2019-02-17 09:13:26 · 807 阅读 · 0 评论 -
爬虫入门实例(六)
爬去豆瓣电影排行榜,新片榜(爬取图片):import requestsimport reimport jsonfrom bs4 import BeautifulSoupdef get_html(url): try: d = {'User Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.3...原创 2019-02-17 14:40:35 · 383 阅读 · 0 评论 -
多行python代码移位
选中要移位的代码块左移: shift+tab右移:tab原创 2019-02-17 19:39:21 · 903 阅读 · 0 评论 -
urlencode
urlencode将字符串以url的形式编码,返回值是一个字符串。例如空格在编码后会变成加号。在python3.6以后,通过from urllib.parse import urlencode导入,很久之前的版本,通过from urllib import urlencode的形式导入python 例如:data = { 'aid': 24, 'offset...原创 2019-02-17 21:18:47 · 1089 阅读 · 0 评论 -
BeautifulSoup中select关键字
select()标签名不加任何修饰,类名前加点,id名前加#,属性用[ 属性 = ‘*****’ ].select()以列表的形式返回。导入形式from bs4 import BeautifulSoup(基于python3.6).# 通过标签名查找soup = BeautifulSoup(html, "lxml")list = soup.select('div')# 查找div标签...原创 2019-02-18 10:31:17 · 2109 阅读 · 0 评论 -
openpyxl
首先确保你已经导入openpyxl包,使用安装包import openpyxl;如若没有,去cmd窗口pip install openpyxl;若在.pip install openpyxl出现问题:Command “python setup.py egg_info” failed with error code 1,可以参考 使用:python -m pip install --u...原创 2019-02-18 20:55:57 · 781 阅读 · 0 评论 -
爬虫入门实例(三)
import requestsimport refrom bs4 import BeautifulSoupr = requests.get("http://python123.io/ws/demo.html")# 借用小嵩老师提供的网址print(r) #查看response对象的状态码demo = r.textprint(demo) # 输出文档内容soup = Beautifu...原创 2019-01-23 16:14:45 · 101 阅读 · 0 评论 -
爬虫入门实例(二)
import requestsfrom bs4 import BeautifulSoupr = requests.get("此处为可爬取的网址")#本人在MOOC上学习,用的是http://python123.io/ws/demo.htmltext = r.textprint(text)#输出整篇文章的源码#print(soup.a.prettify())美化输出与上述输出格式一样s...原创 2019-01-23 14:56:37 · 94 阅读 · 0 评论 -
爬虫入门实例(一)
import requests#导入requests库,前提是已安装requests库,可以通过在命令提示符窗口输入pip3 install requests得到,后期配置有问题,可以尝试按Alt+回车url = "http://www.baidu.com"# url内存放要爬取的页面网址,主意网址的错误try: r = requests.get(url) # 定义变量r存放r...原创 2019-01-23 11:01:56 · 702 阅读 · 0 评论 -
正则表达式
理解:正则表达式用于搜索,替换,和解析字符串,是一种用于文本匹配的工具。特别字符描述$匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 \$。( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。...原创 2019-01-18 15:04:42 · 128 阅读 · 0 评论 -
爬虫入门实例(五)
import jsonimport osimport requestsfrom bs4 import BeautifulSoupdef get_html(url): try: d = {'User Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)...原创 2019-01-24 16:37:43 · 124 阅读 · 0 评论 -
爬虫前的准备工作
首先确保你有python环境。可以在命令提示符窗口输入python检测一下是否已安装python。请求库的安装。常用的第三方库有requests,Selenium和aiohttp。requests安装,在命令提示符窗口输入pip3 install requests.第三方库,python默认不会自带这个库。Selenium安装,在命令提示符窗口输入pip3 install Selen...原创 2019-01-24 18:42:38 · 424 阅读 · 0 评论 -
python之文件的打开与关闭
文件与目录在python系统中,文件是一个对象类型,类似字典,元组等其他类型。Python系统的文件概念不局限于磁盘上的文件,还可以是抽象的,具有文件型接口的类文件。——摘自《Python程序设计教程》python提供open()函数建立文件对象,并打开要读写的文件open()打开格式<file_object> = open(<filename>[,&转载 2019-01-24 21:01:28 · 1779 阅读 · 1 评论 -
ls命令
ls命令 用来显示目标列表,使用效率较高。输出的信息可以进行彩色加亮显示,以区分不同类型的文件。语法ls (选项) (参数)选项-a : 显示所有档案及目录(ls内定档案名或目录名称为‘“ . ”的视为影藏,不会列出)-A : 显示除影藏文件“ . ”和“ … ”以外的所有文件列表-C : 多列显示结果。默认选项-l : 与“ -C ”选项功能相反,所有输出信息用单列格式输出...转载 2019-01-24 21:08:48 · 2850 阅读 · 0 评论 -
python之文件目录
文件目录remove()方法用于删除文件。该方法的参数是待删除的文件名,文件名以字符串形式表达。import osos.remove('abc')# 删除文件名称为‘abc’的文件rename()方法用于对文件换名。该方法需要两个参数。 os.rename(current_file_name,new_file_name)例如:os.rename('maoyan....转载 2019-01-24 21:37:28 · 171 阅读 · 0 评论 -
简单turtle基础
turtle模块以面向对象和面向过程的方式提供turtle图形基元。设置画布大小。 turtle.screensize(width = d1, high=d2, bsckground=color),参数分别为画布的宽(单位像素), 高, 背景颜色。画笔turtle.pensize(width):画笔宽度;turtle.pensize(width):画笔宽度;turtle.p...原创 2019-01-19 20:23:31 · 415 阅读 · 0 评论 -
python之文件的读/写
读写的方法python中,常见的方法有read(),readline(),readlines(),write(),writelines().read()方法返回字符串或字节串,可以设置参数,用指定读出字节数,不指定或指定为负数这是读取全部内容。readline()方法读取一行数据,包括’\n’字符,如果指定参数(参数是字节数),则读取指定字节数的字符。readlines()方法以行为单位...转载 2019-01-25 10:05:17 · 163 阅读 · 0 评论 -
Markdown基础语法
# 一级标题 或者 Ctrl + 1## 二级标题 或者 Ctrl + 2 :### 三级标题 或者 Ctrl + 3 :# ### 四级标题 或者 Ctrl + 4 :。。。。。。###### 六级标题 或者 Ctrl + 6 :标题显示如下:一级标题二级标题三级标题四级标题五级标题六级标题####### 七级标题(标题一到六级,...原创 2019-01-16 08:46:58 · 174 阅读 · 0 评论 -
params
关键字params表示函数的参数是可变个数的,即可变的参数方法C#: params是关键字,可以指定参数数目可变处采用参数的方法参数。在函数的参数数目可变而执行的代码差异很小的时候很有用。 1.若形参表中含一个参数数组,则该参数数组必须位于形参列表的最后面; 2.参数数组必须是一维数组; 3.不允许将params修饰符与re和out修饰符组合起来使用; 4.与参数数组 对...原创 2019-01-22 19:47:04 · 3780 阅读 · 0 评论