- 博客(24)
- 资源 (11)
- 收藏
- 关注
原创 Python实例:网络爬虫抓取豆瓣3万本书(9)
代码在这里:点击打开链接这个实例是作者的一次课程设计。虽然内容不咋的,但是作为课程设计,我还是很惊讶的了。至少我以前没做过这种程度的课程设计。当然实习和毕业设计除外。再总结一下吧。1.知识点在开头三步就已经全部出现了。或者这就是万事开头难吧。2.第四步开始都是重复的东西,自己组织的数据结构,组织得清晰,但是没什么卵用。3.第四步开始时没有什么可以参考的了,侧重看前三步的知识
2017-03-16 12:21:42 4229 3
原创 Python实例:网络爬虫抓取豆瓣3万本书(7)
# -*- coding:utf-8 -*-from tool.HtmlManager import getHtml,getBinaryHtmlimport timeimport os.pathfrom tool.ExcelManager import validateTitle import refrom tool.ProxyManager import makeProxyAddre
2017-03-16 12:03:18 3153
原创 Python实例:网络爬虫抓取豆瓣3万本书(6)
# -*- coding:utf-8 -*-import timefrom tool.ExcelManager import readExcel from tool.DbManager import DbManager # 合并各标签列表页excel到数据库# 第六步:书表去重并写入数据库,# 读取Excel,判断是否重复,先加入book表,重复则往booktag表插入标签记录
2017-03-16 11:58:09 3424
原创 Python实例:网络爬虫抓取豆瓣3万本书(5)
第五步没有什么心的知识点。直接看代码吧。# -*- coding:utf-8 -*-# 提取各标签列表页到excelimport timeimport os.pathfrom tool.ExcelManager import listFiles,readExcel,writeExcelfrom tool import TagManager start = time.clock(
2017-03-16 11:54:01 4116
原创 Python实例:网络爬虫抓取豆瓣3万本书(4)
新的知识点:1.re模块,正则表达式表达式中的分组:组是通过 "(" 和 ")" 元字符来标识的。 "(" 和 ")" 有很多在数学表达式中相同的意思;它们一起把在它们里面的表达式组成一组。2.time模块,日期和时间相关的模块每个时间戳都以自从1970年1月1日 00:00:00过了多长时间来表示。详细内容:http://blog.csdn.net/u01217508
2017-03-16 11:48:00 3462
原创 Python时间time详解
Python中与时间有关的模块time,datetime以及calendar。-----------------time包-----------------在Python中,通常有这几种方式来表示时间:1)时间戳(timestamp)通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。2)格式化的时间字符串 UTC(Coordinated Un
2017-03-14 15:52:42 42704
原创 html<meta>标签详细分析
标签的内容很多,也看具体的浏览器或者搜索引擎对这个某个特定属性的值,是否进行处理。当然常规的是有处理的,但是有好多特殊的,可能是针对搜索引擎的。提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。位于文档的头部,不包含任何内容。标签的属性定义了与文档相关联的名称/值对。可以有多个标签属性:content 必需,要与http
2017-03-11 12:44:54 2793
原创 Python openpyxl下载和安装
openpyxl:操作excel2010 xlsx/xlsm的模块下载地址:https://pypi.python.org/pypi/openpyxl下载解压后,进入到目录内,运行cmd,执行语句python setup.py install。自动安装了,然后看一看eclipse,我的eclipse是一只开着的,没几秒中,就弹出一个对话框然后就完成了。百度一下很多人用p
2017-03-11 11:38:12 60389 3
原创 Python实例:网络爬虫抓取豆瓣3万本书(2)
先补充一下网页访问的流程点击打开链接补充一些概念和知识:beautifulsoup:老火汤是用Python写的一个HTML/XML的解析器,可以很好的处理不规范标记并生成剖析树(parse tree)。提供简单又常用的导航(navigating),搜索以及修改剖析树的操作,大大节省编程时间。安装有点麻烦,可以看看这个: 点击打开链接urllib模块:下载网页、资源等用到
2017-03-10 17:25:03 3217
原创 时下流行的浏览器User-Agent大全
一、基础知识篇:HttpHeader之User-AgentUserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和
2017-03-10 16:25:38 108806
转载 从输入网址到显示网页的过程分析
作为一个软件开发者,你一定会对网络应用如何工作有一个完整的层次化的认知,同样这里也包括这些应用所用到的技术:像浏览器,HTTP,HTML,网络服务器,需求处理等等。本文将更深入的研究当你输入一个网址的时候,后台到底发生了一件件什么样的事~1.首先嘛,你得在浏览器里输入要网址:facebook.com2.浏览器查找域名的IP地址导航的第一步是通过访问的域名找出其IP地址。DN
2017-03-10 14:41:43 2689
原创 beautifulsoup在windows下的安装
beautifulsoup:对xml,html进行解析,生成对应的树状结构的模块,非常牛逼。我在官网下载了最新的版本,安装后发现还是有问题。在官网下载最新版本https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/这个东西搞了一个晚上,不行就不行,其他博客的好多都是一样的,都不行。最后用了百度经验的方式可以了。可
2017-03-09 23:55:29 3663 2
原创 Python实例:网络爬虫抓取豆瓣3万本书(1)
花了些时间看了Python一整本书,写了些小例子,因为是有经验的人自学,所以很多都是跳过的。不过学习还是得在实践中去,学一门语言还得运用中去。去下一些例子下来,去运行,调试时最好的了。《网络爬虫抓取豆瓣3万本书》这个代码来自:http://www.cnblogs.com/nima/p/5614662.html#好像是这个博主的课程设计来的,还不知道人家毕业没,不过达者为先,老夫
2017-03-09 16:52:33 4785
原创 Python3.4+Eclipse+PyDev
安装Python下载地址:http://www.python.org/现在3.4的支持好像非常好了,所以我是用3.4的。安装JAVA JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.htmlEclipse 需要这个安装好JAVA JDK后才能运行下载Eclipsehttp...
2017-03-09 12:03:39 4125 3
原创 Python IDE比较与推荐
先给一个初步的表格吧,大家如果有什么意见,或有补充,欢迎提出。有些我没有用过,先不写了。以下是我使用过的python IDEIDE name自动补全智能感知调试语法检查开源特别注意推荐度IDLE手动有(很差)用库无开源
2017-03-09 11:48:47 5378
原创 Python(17):Web应用
REST框架:Web框架由它的创始人之一Roy Fielding于2000年定义。成为REST(Representational State Transfer,表示状态转移)。架构最基础的特性是其用途,如果不以用途为指导,将没有办法区分好的架构和坏的架构。Web服务器没有必要指导客户端之前发出的请求,由于这个原因,Web浏览器在发出的每个请求中都要向站点传递cookie和身份验证凭据,
2017-03-06 15:14:22 2446
原创 Python(16):Socket编程
一直想了解一下网络编程,重新学一下Socket,现在有机会了。socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,对于文件用【打开】【读写】【关闭】模式来操作。socket就是该模式的一个实现,socket即是一种特殊的文件,一些socket函数就是对其进行的操作(读/写IO、打开、关闭)连看看简单的CS例子:服务端代码:import socket
2017-03-03 11:13:32 2187
转载 本机ip地址、localhost与127.0.0.1的区别
很多人会接触到这个ip地址127.0.0.1。也许你会问127.0.0.1是什么地址?其实127.0.0.1是一个回送地址,指本地机,一般用来测试使用。大家常用来ping 127.0.0.1来看本地ip/tcp正不正常,如能ping通即可正常使用。 对于大多数习惯用localhost的来说,实质上就是指向127.0.0.1这个本地IP地址。在操作系统中有个配置文件将localhost
2017-03-02 23:25:24 5342 1
原创 Python(15):邮件
电子邮件:一条E-mail消息仅仅是一个有着预定义格式的字符串。想要直接用python在自己的机发送邮件是不行的,要配置一个叫做sendmail的东西。所以一般自己写的代码发邮件,都是通过一些常用的邮件服务器发送的。我们的代码只是向这个邮件服务器发送消息,让服务器去转发邮件。也就是说,一般情况下,我们自己是不能开邮局的,而是做个小小的客户端而已。先是一个发送邮件:#
2017-03-02 20:45:21 2640
原创 Python(14):处理xml
xml一直都有接触,再次复习一下吧 这个强制的元素告诉处理器这是一个xml文档。DTD(Document Type Definition)文档类型定义。XPath是在XML文档中描述位置和节点集合的语言。html也是xml的一种,下面来个处理的例子:html文件 fable 程序员 http://blog.csdn.net/u012175089xxxxxxx
2017-03-02 16:01:00 2362
原创 Python(13):数据库访问
如果要保持复杂的信息,就要用到数据库。多年来,Python已经成熟到可以提供一个通用数据库(DB)的API,成为DB API。DB API使用了数据库的最低标准,并尽可能使用Python不同数据库要下载不同的模块:https://wiki.python.org/moin/DatabaseInterfaces我自己一直用到时MySql,所以https://wiki.python.org/
2017-03-02 12:12:52 2630
原创 Python(12):dbm持久字典
很多情况下并不需要一个完整的关系数据库,只是保存一些用户信息而已。键值都是字符串类型DBM是database manager的缩写Python支持很多DBM模块。因为历史原因,有很多dbm库,而且这些库是不兼容的。然而dbm模块是一个方便选择,可以避免选择特定的dbm模块。可以让dbm模块自己做出选择。dbm 选择最好的dbm模块dbm.dumb 使用dbm库的一个简单但可移植
2017-03-01 16:40:19 5415 3
原创 Python(11):GUI
#!/usr/bin/env python 3.6import tkinterfrom tkinter import *import sysstate = '' #定义一个全局变量buttons = [] #定义一个button列表def result(): print('the sum of 2 + 2 is ', 2 + 2) def choose(i):
2017-03-01 14:56:15 2388
Python实例:网络爬虫抓取豆瓣3万本书-详细注释版
2017-03-16
mysql-connector-python-2.1.5-py3.4-winx64
2017-03-02
Android新手入门2016
2016-04-01
Android新手入门2016(15)--Gallery画廊
2016-03-26
Android新手入门2016(13)--FragmentTabHost实现选项卡和菜单
2016-03-26
Android新手UI集合(全)
2016-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人