- 博客(8)
- 问答 (1)
- 收藏
- 关注
原创 一段解决了好多天疑惑的代码
最近使用scrapy爬虫框架写爬虫,遇到一个问题,大概是跟进爬取的问题,但是crawlspider类无法很好地解决,查了一些rules方面的材料没收获。 如果想在爬出的链接上进一步爬取内容,应该如何操作,如果再定义一个函数,比如parse2,那么它怎么接受前一步爬出的链接呢? import scrapy from myfirstspider.items import MyItem impo
2015-09-22 18:55:17 526
原创 6、K均值算法
# -*- coding:utf-8 -*- ''' Created on Feb 16, 2011 k Means Clustering for Ch10 of Machine Learning in Action @author: Peter Harrington ''' from numpy import * def loadDataSet(fileName): #genera
2015-09-20 10:39:11 477
原创 5、支持向量机SVM
支持向量机的思想在于最小间隔最大化。这篇文章主要关注SMO算法的实现,和核函数的使用问题。 SMO算法的工作原理是每次循环中选择两个alpha值进行优化处理。这两个alpha满足一定的条件: 1、两个alpha必须要在间隔边界之外 2、两个alpha还没经过区间化处理或不在边界上 首先看一个简化版的SMO算法函数。 from numpy import * from time import
2015-09-13 16:57:06 864
原创 4、Logistic回归
这一部分,主要是用来讲解最优化算法。 我们采用的算法是梯度上升法。梯度上升算法用来求最大值,梯度下降算法用来求最小值。 给出代码: from numpy import * def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines()
2015-09-13 15:45:08 451
原创 RX-93-v GUNDAM VER.KA
这只大班卡牛是女朋友买给我的礼物!!!(我竟然有女朋友羡慕吧!撒花~) 不过拼起来真是挺困难的,一共有800~900个零件,每个都要打磨,喷漆,工作量还是挺大的。 1、这是大班做的可动手,太脆弱不敢修水口。最后用灰色的马克笔遮盖了水口。大拇指和手甲经常掉,圣水粘之~ 2、两只可动手 3、阿姆罗,懒得上色+修水口 4、这是上半身,爆甲设计很巧妙 5、牛头,没贴
2015-09-11 19:30:19 972
原创 python cookbook:第三章 数字、日期和时间
3.1 对数值进行取整 round(value,digit) 其中,digit可以为负数。 3.2 执行精确的小数计算 去除浮点类型天生的误差,获得更高的精度,可以使用Decimal模块。 from decimal import Decimal a=Decimal('4.2') b=Decimal('4.4') print(a+b) Decimal模块可以修改位数,四舍五入。
2015-09-05 20:14:20 457
原创 python cookbook:第二章 字符串和文本
2.1 针对任意多的分隔符拆分字符串 使用re.split(),例如: re.split(r'[;,\s]\s*',str) 正则表达式模式中的捕获组:如果使用,匹配文本也在最终的文本中。例如: re.split(r'(;|,|\s)\s*',str) 2.2 在字符串开头或结尾处做文本匹配 使用str.startwith()和str.endwith()。这两个函数也允许多
2015-09-04 16:46:43 449
原创 python cookbook:第一章 数据结构和算法
1.1 将序列分解为单独的变量 p=(4,5) x,y=p 只要对象是可迭代的,就可以执行分解操作。 字符串、文件、迭代器、生成器都可以。 字符串: s='hello' a,b,c,d,e=s 想要丢弃特定的值,使用一个用不到的变量名就可以了。 1.2 从任意长度的可迭代对象中分解元素 first,*middle,last=grades *middle代表了中间的n个元素
2015-09-02 13:39:28 473
空空如也
python中的xpath,为什么'/html'就匹配不到
2015-10-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人