- 博客(4)
- 收藏
- 关注
原创 Python的对象类型
内置对象数字—-1234, 3.1415, 3+4j 字符串(str)—-‘spam’ 列表(list)—-[1, [2, ‘three’], 4] 字典(dict)—-{‘food’: ‘spam’, ‘taste’: ‘yum’} 元组(tuple)—-(1, ‘spam’, 4) 文件(file)—-myfile = open(‘filename’, ‘r’) 其他类型:集合(s
2017-07-27 18:12:27 432
原创 Python如何运行程序
程序执行的标准流程Python安装在机器上,它包含一个解释器和支持的库。Python程序开始执行之前不需要预编译和连接,大大缩短开发周期。 字节码编译当Python运行脚本时,第一步需要将脚本编译成“字节码”,字节码是源代码底层的、与平台无关的表现形式,扩展名为“.py”的脚本源文件编译成扩展名为“.pyc”字节码文件,此过程对程序员是不可见的(即透明的)。如果源文件没有被修改,下一次运行程序时将自
2017-07-27 16:16:02 4971
原创 用Python写网络爬虫——学习笔记(1)
【网站背景调研】 网站自身的robots.txt/Sitemap Google/WHOIS 1. 检查robots.txt 爬虫限制、与网站结构相关的显示 如何查看robots.txt?在网站后打/robots.txt即可 2. 检查Sitemap 估算网站大小 大小衡量?目标网站的URL的个数 1) 检查Google爬虫的结
2017-07-21 11:53:35 492
原创 用Python写网络爬虫——学习笔记(2)
【3个简单的爬虫实例】 **3种爬取网站的常用方法: 爬取网站地图(sitemap,包含了一个网站所有链接的xml格式文件) 遍历每个网页的数据库ID 跟踪网页链接 下载感兴趣的网页(下载html) 为后文的三个爬虫的实现做铺垫
2017-07-21 10:51:14 715
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人