python htmlparser使用问题小结

基于HTMLParser的反复使用的问题 from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): data = [] def handle_starttag(self, tag, attrs):...

2017-03-30 18:54:07

阅读数:83

评论数:0

python模块学习---mechanize(模拟浏览器)

mechanize是非常合适的模拟浏览器的模块。 它的特点主要有: 1 http,https协议等。 2 简单的HTML表单填写。 3 浏览器历史记录和重载。 4 Referer的HTTP头的正确添加(可选)。 5 自动遵守robots.txt的。 6 自动处理HTTP-EQUI...

2017-03-30 08:12:20

阅读数:92

评论数:0

python模块学习---HTMLParser(解析HTML文档元素)

HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数: handle_starttag( tag, attrs) handle_s...

2017-03-30 08:09:40

阅读数:104

评论数:0

python模块学习---cmd

Cmd类型提供了一个创建命令行解析器的框架。简单的来说,可以继承Cmd来创建命令行界面,然后对所有想处理的命令command执行do_command方法。这个方法会接受命令行的其余部分作为自己的唯一参数。 比如,如果在命令行中输入: say hello do_say方法会连同作为唯一参数...

2017-03-30 08:07:20

阅读数:159

评论数:0

如何优雅地退出python程序

如何优雅地退出python程序 一个单模的Python程序,启动之后要能够优雅地关闭。即当用户按Ctrl+C或者kill pid的时候,程序都能从容关闭。实现起来非常简单。 [python] view plain copy  print? ...

2017-03-28 18:17:44

阅读数:186

评论数:0

python字符串

#! /usr/bin/env python # -*- coding: utf-8 -*- # 模仿你从网页获得的数据 data = "学分:1.5".decode("utf-8").encode('gb2312') # data = u"学分...

2017-03-28 18:17:03

阅读数:90

评论数:0

python 示列:抓取网页所有<a>连接

如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。 接下来的示例展示分为2个步骤 1.获取目标网页的内容 2.屏幕输出网页中所有的标签的连接 示列:myparser.py   1 #!/usr/bin/env...

2017-03-28 18:15:47

阅读数:163

评论数:0

HTMLParser的初步学习

Python的自带模块——HTMLParser的初步学习 HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从模块html.parser中的类HTMLParser继承...

2017-03-28 18:15:03

阅读数:105

评论数:0

pythonIO复用epoll

#coding:utf-8 import socket, select import time EOL1 = b'\n\n' EOL2 = b'\n\r\n' response = b'HTTP/1.0 200 OK\r\nDate: Mon, 1 Jan 1996 01:01:0...

2017-03-25 18:08:10

阅读数:181

评论数:0

TCP连接复用

TCP连接复用技术通过将前端多个客户的HTTP请求复用到后端与服务器建立的一个TCP连接上。这种技术能够大大减小服务器的性能负载,减少与服务器之间新建TCP连接所带来的延时,并最大限度的降低客户端对后端服务器的并发连接数请求,减少服务器的资源占用。       一般情况下,客户端在发送HTTP请...

2017-03-25 17:42:37

阅读数:174

评论数:0

对于sync.Mutex使用注意事项

1.sync.Mutex的初始化注意事项 type MemProvider struct { lock     *sync.Mutex              //用来锁 sessions map[string]*SessionStore //用来存储在内存 } 初始化时 var...

2017-03-23 14:28:29

阅读数:405

评论数:0

Python包管理工具setuptools详解及entry point

Python包管理工具setuptools详解 0.什么是setuptools setuptools是Python distutils增强版的集合,它可以帮助我们更简单的创建和分发Python包,尤其是拥有依赖关系的。用户在使用setuptools创建的包时,并不需要已安装setupt...

2017-03-22 18:15:24

阅读数:135

评论数:0

python下使用epoll

因为最近想学习如何用epoll写服务器, 于是找到了一篇介绍的文章. 因为我最近一直看不进技术文章, 于是打算通过翻译来强迫自己学习. 原文在这里: http://scotdoyle.com/python-epoll-howto.html 文章里面的代码下载地址: h...

2017-03-22 18:14:30

阅读数:150

评论数:0

每天进步一点点——五分钟理解一致性哈希算法(consistent hashing)

转载请说明出处:http://blog.csdn.net/cywosp/article/details/23397179     一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致...

2017-03-21 08:23:34

阅读数:112

评论数:0

Tornado自定义分布式session框架

Tornado自定义分布式session框架   一、session框架处理请求执行的流程: 1、服务器端生成随机的cookie字符串 2、浏览器发送请求,服务器将cookie返回给浏览器。 3、服务器在生成一个字典。字典的key为cookie,value为另一个小字典。...

2017-03-20 10:41:21

阅读数:189

评论数:0

如何设置一个严格30分钟过期的Session

今天在我的微博(Laruence)上发出一个问题: 我在面试的时候, 经常会问一个问题: “如何设置一个30分钟过期的Session?”, 大家不要觉得看似简单, 这里面包含的知识挺多, 特别适合考察基本功是否扎实, 谁来回答试试? 呵呵 为什么问这个问题呢? 1. 我在Twitter...

2017-03-20 10:14:21

阅读数:110

评论数:0

不同浏览器Cookie有效期问题

公司网站服务器是Linux的,服务器端的时间延迟了很多接近两小时,结果设置cookie过期时间为一小时后谷歌和IE浏览器都登录不了(登录判断cookie),只有firefox可以登录,时间调整后就正常了。找到下面这边文章去检查了下服务器时间,果然。。 转载:http://www.yz...

2017-03-20 10:02:17

阅读数:384

评论数:0

golang的临时对象池sync.Pool

今天在写码之时,发现了同事用到了sync.pool。因不知其因,遂Google之。虽然大概知道其原因和用法。还不能融汇贯通。故写此记,方便日后查阅。直至明了。 正文 在高并发或者大量的数据请求的场景中,我们会遇到很多问题,垃圾回收就是其中之一(garbage collection),为...

2017-03-20 08:14:11

阅读数:497

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭