算法与数据结构

问题1 1亿的文本如何放在100台机器上两两做相似度计算问题2 40亿数据如何用2G内存排序问题3 遍历树

2017-08-30 08:28:29

阅读数 341

评论数 0

西瓜书《机器学习》阅读笔记1——Chapter1_假设空间

现在需要判断一个西瓜是否为好瓜。假设西瓜有三个属性:色泽、根蒂、敲声。其中色泽有青绿、乌黑、浅白三种可能取值,根蒂有硬挺、稍蜷、蜷缩三种可能取值,敲声有清脆、浊响、沉闷三种可能取值。并且为每种属性考虑通配情况,即取任一属性值都行,比如好瓜根蒂蜷缩,敲声浊响,什么色泽都行。不考虑属性通配两个属性值的...

2017-08-29 20:03:21

阅读数 3993

评论数 3

Python第三方库——xlrd&xlwt读写Excel表

现在已有data.xls(或者.xlsx)文件,想要读取表中数据。import xlrd book = xlrd.open_workbook("data.xls") sheet = book.sheet_by_name("sheet1") for r in ...

2017-08-23 11:54:37

阅读数 704

评论数 0

Python爬虫资料

http://www.jianshu.com/p/170c52af02a1

2017-08-18 19:39:47

阅读数 533

评论数 0

Python爬虫——实战四:爬取亚马逊的商品价格

亚马逊的html源码中直接包含了价格信息,所以不再需要逆向工程或者渲染引擎方法获取价格信息。 但是在使用urllib2.openurl()获取html页面时,总是返回503错误。尝试用用户代理、Cookies都不行。搜索这个问题的时候,发现网友给出的代码使用requests库。测试了一下,可以成...

2017-08-18 18:23:03

阅读数 8228

评论数 1

Python爬虫——实战三:爬取苏宁易购的商品价格(渲染引擎方法)

苏宁易购的商品价格请求URL为https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_10_010_0100101_20268_1000000_9017_10106_Z001___R010...

2017-08-17 22:12:16

阅读数 5279

评论数 1

Python爬虫——实战二:爬取天猫产品价格(逆向工程方法)

天猫上的产品价格请求URL的分析过程和爬京东价格的时候是类似的。 通过分析,得到天猫商品价格的请求URL:’https://mdskip.taobao.com/core/initItemDetail.htm?itemId=556708482118(这个是简化之后的,可用)。但是这个网页打开之后出...

2017-08-17 21:31:31

阅读数 6791

评论数 7

Python爬虫——实战一:爬取京东产品价格(逆向工程方法)

在京东的单个产品页面上,通过查看源码检查html,可以看到 <span class="p-price"><span>¥</span><span class="price J-p-1279836"></s...

2017-08-15 21:27:43

阅读数 13150

评论数 8

Ubuntu安装Apache

安装Ubuntu下安装Apache:apt-get install apache2安装成功后,网站默认的根目录是/var/www/html,该文件夹下现在有一个index.html文件。现在用浏览器访问公网IP是可以打开“ Apache2 Ubuntu Default Page ”页面的。Apa...

2017-08-15 12:19:52

阅读数 337

评论数 0

Python爬虫之抓取数据——正则表达式/Beautiful Soup/Lxml

有三种抓取网页中数据的方式:正则表达式,Beautiful Soup和lxml。正则表达式items = re.findall(regexp, str)items = re.findall('<div.*?class="p-img">.*?<a.*?title...

2017-08-14 11:16:48

阅读数 1525

评论数 0

Python模块——time

time.sleep(sec):推迟执行程序,参数表示秒数 time.sleep(5)

2017-08-14 10:45:28

阅读数 247

评论数 0

Python爬虫之爬取——限制下载速度

为了避免造成服务器过载,可以在两次下载之间添加时延,从而降低爬虫下载速度。

2017-08-14 10:29:25

阅读数 2960

评论数 0

Python爬虫之爬取——使用代理

使用代理来访问网站。使用urllib2模块支持代理headers = {'User-agent': agentname} request = urllib2.Request(url, headers=headers) proxy = "" opener = urllb2.bu...

2017-08-14 10:19:18

阅读数 512

评论数 0

Python爬虫之爬取——解析robots.txt文件

robots.txt文件规定了爬虫在爬取该网站时有哪些约束。robots.txt示例下面给出一个robots.txt示例:禁止用户代理为BadCrawler的爬虫爬取该网站 #section 1 User-agent: BadCrawler Disallow: /无论哪种用户代理,都应该在两次下载...

2017-08-14 10:11:19

阅读数 3388

评论数 0

Python第三方库——urlparser

import urlparser new_link = urlparse.urljoin( seed url, link)

2017-08-14 09:51:42

阅读数 295

评论数 0

阿里云ESC服务器建站记录

选择了美国西部的ESC服务器,问了客服,说是位于国外的服务器不需要备案,而且国内也可以访问。无法通过公网IP进行访问在购买了ESC服务器之后,可以远程连接,但是目前在浏览器中使用公网IP无法访问。添加安全组规则根据下面两个链接的指导,添加了80端口的安全组规则。https://help.aliyu...

2017-08-10 18:09:20

阅读数 1462

评论数 0

WordPress——SiteOrigin设置一行中的Widgets竖直居中显示

假设在一行中设置了四个图片Widget,那么默认情况下这些图片的顶部对齐。这样,当图片大小不一致时,显示效果非常难看。我们想让所有的图片中间对齐。要实现这个效果,需要同时执行下面两个操作: 设置行的Layout中Cell Vertical Alignment项为center,如下图所示:在Attr...

2017-08-09 08:40:46

阅读数 798

评论数 0

WordPress设置字体以及颜色

设置如下:

2017-08-07 15:43:38

阅读数 5258

评论数 0

Woocommerce Product Filter插件——为不同类别设置不同filter

问题描述WOOF插件用来对Woocommerce商品进行筛选。现在商品总共有三种类别,我们假设分别为裙子、手机和杯子。注:这种分类只是为了说明遇到的问题,没有什么实际意义。 现在为裙子添加三种属性:大小(S, M, L),长短(长, 中, 短),有无袖(有, 无)。为手机添加两种属性:品牌(华为...

2017-08-02 18:30:24

阅读数 2553

评论数 0

查看访问服务器的IP

netstat -ntu | awk ‘{print $5}’ | cut -d: -f1 | sort | uniq -c | sort -n关于这个命令,在这篇文章中有介绍http://www.linuxidc.com/Linux/2012-05/61126.htm

2017-08-01 22:43:31

阅读数 2539

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭