- 博客(22)
- 资源 (29)
- 收藏
- 关注
转载 分分钟学会用python爬虫框架Scrapy
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感。 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在...
2018-02-27 15:51:13 394
转载 BaseSpider在scrapy中的使用
Scrapy中继承自BaseSpider的爬虫是不被推荐的,如下所示:[python] view plain copyfrom scrapy.spider import BaseSpider class NegativeCommentScrapy(BaseSpider): ... 查看scrapy的源码,在scrapy.spider模块中可以看到BaseSpider的生成方式,他是通...
2018-02-27 15:32:34 575
转载 Python 静态方法和类方法的区别
python staticmethod and classmethodThough classmethod and staticmethod are quite similar, there’s a slight difference in usage for both entities: classmethod must have a reference to a class object as...
2018-02-27 13:53:18 605
转载 Twsited异步网络框架
TwsitedTwsited是一个事件驱动的网络架构,其中包含了很多功能,例如:网络协议,线程,数据库管理,网络操作,电子邮件等。 事件驱动简单来说,事件驱动分为两个部分,第一注册事件,第二触发事件例子:event_list = [] def run(): for event in event_list: obj = event() obj.exec...
2018-02-27 10:41:25 404
转载 在python中实现动态导入模块importlib.import_module
在程序运行的过程中,根据变量或者配置动态的决定导入哪个模块 import importlib import util def __init__(self, fnames): self.files = fnames # 成员变量,待部署的配置文件名(data目录的那些个文件),不含后缀 self.deploys = {} # 成员变量,配置文件记录的配置对象,看配...
2018-02-26 17:08:29 5083
转载 不建议mysql分区表
缘起:业内进行一些技术交流的时候也更多的是自己分库分表,而不是使用分区表。 解决什么问题?回答:当mysql单表的数据库过大时,数据库的访问速度会下降,“数据量大”问题的常见解决方案是“水平切分”。 mysql常见的水平切分方式有哪些?回答:分库分表,分区表 什么是mysql的分库分表?回答:把一个很大的库(表)的数据分到几个库(表)中,每个库(表)的结构都相同,但他们可能分布在不同的mysql实...
2018-02-26 16:31:10 688
转载 python 图像处理模块函数 thumbnail参数意义
import Imageim = Image.open('test.png')print im.format, im.size, im.modeim.thumbnail((200, 100))im.save('thumb.jpg', 'JPEG')12345python的PIL库可以实现对图片的处理生成缩略图 thumbnail函数接受一个元组作为参数,分别对应着缩略图的宽高,在缩略时,函...
2018-02-24 10:27:05 847
转载 python中decode和encode的区别
#-*-coding:utf-8import sys'''*首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb231...
2018-02-23 16:19:04 474
转载 python中计时工具timeit模块的基本用法
测试一行代码的运行时间,在python中比较方便,可以直接使用timeit:Timer 类:__init__(stmt="pass", setup="pass", timer=default_timer) stmt 是执行语句,setup 是导入执行语句环境print_exc(file=None)timeit(number=default_number) 返回测试所用秒数,number...
2018-02-23 16:10:34 326
转载 在项目中redis做缓存的一些思路
首先,缓存的对象有三种:1:数据库中单条的的数据(以表名跟id作为key永久保存到redis),在有更新的地方都要更新缓存(不适用于需要经常更新的数据);2:对于一些不分页,不需要实时(需要多表查询)的列表,我们可以将列表结果缓存到redis中,设定一定缓存时间作为该数据的存活时间。用获取该列表的方法名作为key,列表结果为value;这种情况只试用于不经常更新且不需要实时的情况下。3:不需要实时...
2018-02-23 14:47:57 664
转载 redis系列之数据库与缓存数据一致性解决方案
数据库与缓存读写模式策略写完数据库后是否需要马上更新缓存还是直接删除缓存?(1)、如果写数据库的值与更新到缓存值是一样的,不需要经过任何的计算,可以马上更新缓存,但是如果对于那种写数据频繁而读数据少的场景并不合适这种解决方案,因为也许还没有查询就被删除或修改了,这样会浪费时间和资源(2)、如果写数据库的值与更新缓存的值不一致,写入缓存中的数据需要经过几个表的关联计算后得到的结果插入缓存中,那就没有...
2018-02-23 14:27:45 823
转载 python from __future__ import division
1.在python2 中导入未来的支持的语言特征中division(精确除法),即from __future__ import division ,当我们在程序中没有导入该特征时,"/"操作符执行的只能是整除,也就是取整数,只有当我们导入division(精确算法)以后,"/"执行的才是精确算法。如:1234567891011121314151617#python 2.7.6Python 2.7....
2018-02-23 10:43:31 374
转载 python中datetime模块中strftime/strptime函数
python中datetime模块非常好用,提供了日期格式和字符串格式相互转化的函数strftime/strptime1、由日期格式转化为字符串格式的函数为: datetime.datetime.strftime()2、由字符串格式转化为日期格式的函数为: datetime.datetime.strptime()3、两个函数都涉及日期时间的格式化字符串,列举如下:%a 星期几的简写;如 星期三为W...
2018-02-23 10:32:52 429
转载 python队列Queue
,用来在生产者和消费者线程之间的信息传递基本FIFO队列class Queue.Queue(maxsize=0)FIFO即First in First Out,先进先出。Queue提供了一个基本的FIFO容器,使用方法很简单,maxsize是个整数,指明了队列中能存放的数据个数的上限。一旦达到上限,插入会导致阻塞,直到队列中的数据被消费掉。如果maxsize小于或者等于0,队列大小没有限制。举个栗...
2018-02-22 15:31:32 382
转载 DataFrame的reset_index函数
reset_index函数功能:示例:In [1]: dfOut[1]: 0 1 2 3 40 -0.127085 -0.538321 0.641609 -0.020957 0.0035031 -0.304994 0.157213 0.586962 0.251505 1.0224182 -0.2...
2018-02-22 14:40:36 4156
转载 浅析Beautiful Soup库和Lxml库
众所周知,Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。作为一个爬虫爱好者,今天我来简单讲讲这两个库各自的优点和不足,不对的地方还请各位大神斧正。 Beautiful Soup模块可以用来解析网页,并提供定位内容的便捷接口,可以用下面的命令安装其最新版本。>>>pip install...
2018-02-22 11:17:48 1346
原创 鳄鱼线交易策略
鳄鱼线是结合了不规则分形几何学和非线性动力学的时间框架线有蓝、红、绿三条。【鳄鱼线的作用:】1、判断当前行情是否可以操作;2、提供安全的买卖点;3、把握快速上涨的行情;4、确定止损位置。具体而言:当鳄鱼线的几条线相互缠绕到一起的时候,就是“鳄鱼”睡着的时候,我们在这个时候不要买进股票。当“鳄鱼”向上张嘴的时候,才是买进机会出现的时候。【鳄鱼线的基本使用方法:】当唇吻(绿色)在牙齿(红色)以上,牙齿...
2018-02-19 14:50:44 2752
转载 OrderSelect() 如何选择单子
bool OrderSelect(int index, int select, void pool)此函数用于选择订单。如果函数选择成功,返回的值为TRUE; 如果选择失败,返回的值为FALSE。 如果订单的平仓时间为0,则说明该订单为进入市场的已成交单或已发出的挂单。如果平仓时间不为0,则为历史中的 已平仓单或已取消的挂单 bool OrderSelect( int index,...
2018-02-18 15:57:08 4127
转载 Python random模块sample、randint、shuffle、choice随机函数
一、random模块简介Python标准库中的random函数,可以生成随机浮点数、整数、字符串,甚至帮助你随机选择列表序列中的一个元素,打乱一组数据等。二、random模块重要函数1 )、random() 返回02 )、choice(seq) 从序列seq中返回随机的元素;3 )、getrandbits(n) 以长整型形式返回n个随机位;4 )、shuffle
2018-02-06 14:20:20 1604
转载 MongoDB的安装与设置MongoDB服务
Mongo DB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一条记录都是一个Document对象。Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。工具
2018-02-03 13:24:44 400
转载 解决cmd命令行显示中文乱码
cmd命令行窗口显示中文乱码,多是因为cmd命令行窗口字符编码不匹配导致。修改cmd窗口字符编码为UTF-8,命令行中执行:chcp 65001切换回中文:chcp 936这两条命令只在当前窗口生效,重启后恢复之前的编码。切换cmd窗口字符编码有风险,例如切换过以后中文显示乱码,并且不能永久切换回原来模式,只能每次chcp 936。cmd中文显示乱码永久解决方案,以
2018-02-01 16:06:30 31611
转载 python调用Shell脚本:os.system(cmd)或os.popen(cmd)的区别
最近需要用到os.system 发现不能赋值到变量后查有更新的模块,如下: os.system os.spawn* os.popen* popen2.* commands.*重新使用content=os.popen(‘help’).read() 就能获取到了两者的区别是:os.system(cmd)的返回值只会有0(成功)
2018-02-01 13:37:59 5183
Android Power On Off
2012-07-08
homeswitcher
2012-06-20
HeadFirstDesignPatterns_code
2012-06-17
android设置主题和自定义主题的方法
2012-04-20
Android实例2
2012-03-27
Android实例
2012-03-27
Android 9patch失效
2012-02-22
google_sdk_android3
2012-02-02
Google_android_java
2012-02-02
格式工厂-支持几乎所有类型多媒体格式到常用的几种格式
2012-01-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人