python学习

1,资料

❤网易云课堂   mit Python专业课。

❤Python官网  https://www.python.org/

❤Python charm 网址(Python集成开发平台) http://www.jetbrains.com/pycharm/download/download-thanks.html?platform=windows

❤ www.lfd.uci.edu  一个可以下载很多软件的网址


2,Python 爬虫

①单线程爬虫。

工具:Pythoncharm requests(应该是个第三方库,复制粘贴在Python下的库文件夹,可以直接引用)

 STEP 1 : 提取源代码

import requests
html=requests.get('http://tieba.baidu.com/f?kw=python&ie=utf-8')
print html.text

能获取简单网页的。

如果网页有审查定的识别能力,需要增加代码,写入user agent

headers = {'user-agent;'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36''}
html=requests.get('http://tieba.baidu.com/f?kw=python&ie=utf-8',headers = headers)

②网页爬虫

用requests获取源代码,用正则表达式,匹配出感兴趣的内容

❤可以用源代码网页中字体设置等条件,匹配出感兴趣的内容


************************************ python  PHP 序列化和反序列化

http://www.cnblogs.com/A-Song/archive/2011/12/13/2285619.html


phpserialize module 

dumps loads 

反序列化以后是一串字典。




*************************************** 文本匹配,正则表达式

http://www.jb51.net/article/15707.htm   简洁

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html  全面排版比较好


re 是表示正则表达

re.compile(),是做规则,规定要匹配找出的东西是什么样子的,而且是抽象的字符,数字之类的概念,而不是的像一般匹配那种确定的字符。这是个对象。

因为文本编译的是直接C 编写的匹配引擎执行,所以很多 类似 通配符,格式符的语法:

pyre


**用的 re.compile(r'.......')  是因为python字符串和正则表达式之间的冲突。要用r (raw)模式的,

例如,\b 在正则表达式中,是零界宽定符,写 re.compile(r'\bnaive\b'),是编译的,naive ,表示不匹配 sometimenaive,只匹配 sometime naive ,

如果写re.compile('\bnaive\b') ,python 会把它当做退为符(在python字符串中的是这个意思)处理。


Ctrl + /  注释快捷键

readline()

readlines()


************************************************

python 文件和目录处理

http://www.jb51.net/article/48001.htm


一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。
1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()
2.返回指定目录下的所有文件和目录名:os.listdir()
3.函数用来删除一个文件:os.remove()
4.删除多个目录:os.removedirs(r“c:\python”)
5.检验给出的路径是否是一个文件:os.path.isfile()
6.检验给出的路径是否是一个目录:os.path.isdir()
7.判断是否是绝对路径:os.path.isabs()
8.检验给出的路径是否真地存:os.path.exists()
9.返回一个路径的目录名和文件名:os.path.split()     eg os.path.split('/home/swaroop/byte/code/poem.txt') 结果:('/home/swaroop/byte/code', 'poem.txt') 
10.分离扩展名:os.path.splitext()
11.获取路径名:os.path.dirname()
12.获取文件名:os.path.basename()
13.运行shell命令: os.system()
14.读取和设置环境变量:os.getenv() 与os.putenv()
15.给出当前平台使用的行终止符:os.linesep    Windows使用'\r\n',Linux使用'\n'而Mac使用'\r'
16.指示你正在使用的平台:os.name       对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'
17.重命名:os.rename(old, new)
18.创建多级目录:os.makedirs(r“c:\python\test”)
19.创建单个目录:os.mkdir(“test”)
20.获取文件属性:os.stat(file)
21.修改文件权限与时间戳:os.chmod(file)
22.终止当前进程:os.exit()
23.获取文件大小:os.path.getsize(filename)


等等。


字符串变list .split()









©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页