自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 python爬虫之手机模拟

一般情况下,网站是通过对http请求的header 进行识别来判断是访问的是pc还是手机,哪个版本的浏览器所以,可以通过修改header的方法来模拟手机。  例如下面就是模仿了安卓4.3b版本的手机,androidN1浏览器headers = { 'User-Agent':'Mozilla/5.0 (Linux; U; Android 4.3; en-us; SM-N900T Buil

2015-02-06 10:17:57 8469

原创 处理python爬虫的timeout报错

尽管添加了import socketsocket.setdefaulttimeout(timeout)但是在爬虫过程中依然会出现Traceback (most recent call last):  File "C:\Users\wenxue5\Documents\Tencent Files\910872628\FileRecv\zongheng.py", line 93

2015-02-04 18:08:37 18497

原创 python 爬虫百度搜索结果

因为合作的关系,用户在百度上搜索一些检索词时,百度会把我们网站放到搜索结果的第一位,但是经过实践发现,好多关键字都不是这样的。所以写了一个小爬虫来检验2000-3000个关键字的移动和pc端百度搜索结果。利用put的方法提交url,然后对返回的数据进行正则匹配,找出第一位的搜索结果是不是含有我们网站的链接。python # coding=utf-8import urllibim

2015-02-04 14:37:06 2143

原创 工作纪要---解决统计差别问题

1、解决统计差别问题     zongheng统计的访问uv和百度统计相差较大   经过逐项对比数据,查找发现是因为直接访问的uv差距   有部分用户禁用的cookie,导致无id信息,没有列入统计   结果是 对该用户的ip地址进行记录,然后   通过对总量的 uv/ip 的出比值,再进行相乘   或者是总量pv/uv得出比值,再进行计算无cook

2015-02-01 20:00:50 393

原创 书籍下架情况分析

1、因为净网的原因,下架了几乎一半的书籍,包含签约和非签约书     和神马搜索有推广协议,分为阿拉丁(搜索结果放于首页首项)和自然搜索两种     近期无线端来自神马的uv和pv大幅下降时间pv总uv阿拉丁 pv阿拉丁uv非阿拉丁pv非阿拉丁uv201412154304852371

2015-02-01 19:59:14 2720

原创 hive case when 和osort by 和group by使用记录

1、当某个字段应用了case when 条件并且使用了or, 且where查询条件的里正好有该字段,查询结果会出错针对查询一出现问题,修改下SQL, 将case when then else end, 改成case when then when then else end即可2、Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。

2015-02-01 19:52:02 4248

原创 排序算法,插入、快速、希尔、基数、归并排序的代码实现和效率分析

排序算法,插入、快速、希尔、基数、

2014-09-30 15:31:15 553

原创 神经网络原理

神经网络原理      jis

2014-09-12 22:07:45 921

原创 找出坐标集中的最远距离及其坐标

如何从m个数中找出最大的n个数

2014-09-11 09:30:59 1865

转载 UFLDL教程

http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B

2014-08-26 10:27:59 501

原创 华住酒店App(wp8)的使用体验

好久没有入住

2014-08-22 02:11:47 2255

原创 数据挖掘任务常用算法笔记

数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特征。预测性数据挖掘任务在当前的数据上进行推断,以进行预测。数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型,包括数据特征化和区分,关联分析,分类,聚类,孤立点分析,演变分析等。其中分类、聚类可以将数据库中的数据自动地分类,因此也有人把它们统称为数据库分段(Database Segmentation)

2014-08-21 21:36:00 1023

原创 python最小公倍数与最大公约

m=int(raw_input('please input a integer m'))n=int(raw_input('please input a integer n'))if m>n: m,n=n,mmax =1for i in range(2,n+1): if(n%i == 0 and m%i == 0): max=i else: print ipri

2014-08-20 20:25:13 6815

原创 数据可视化----Flotr2和Raphaël 绘制气泡图

Flotr2

2014-08-19 09:30:03 3113

原创 notepad++配置python运行

1、首先在notepad++中打开一py文件2、点击运行或者

2014-08-18 12:44:57 979

转载 python程序的调试方法

【转自:http://blog.csdn.net/luckeryin/article/details/4477233】本文讨论在没有方便的IDE工具可用的情况下,使用pdb调试python程序源码例子例如,有模拟税收计算的程序:#!/usr/bin/python def debug_demo(val):                 if val   

2014-08-13 00:55:05 446

原创 大数据处理学习之 垃圾邮件判定1

假设目前一文件中存放有一千万封邮件,如何将其分类,按照垃圾邮件和正常邮件分别插入数据库中。处理这个问题,选择贝叶斯分类的方法。1、首先收集大量正常邮件和垃圾邮件作为样本2、建立一个过滤词表,包含有对邮件分类不产生作用、不代表邮件特征的字符串列入,如"的"、“得”、“我”、“们”、“it”、“”,然后当训练分类器时,将这些字符串移除。3、建立两个哈希表,Hashtable_Goo

2014-08-12 16:05:03 1457

原创 贝叶斯后验定理与预测(信号与噪声读书笔记)

正如统计学家乔治·E·P·博克斯所写:“所有的模型都是错误的,但是其中有些是有用的。”这句话的意思就是,所有模型都是这个世界的简化形式,因为这是必要的。正如另一位数学家所说:“一只猫最好的模型就是一只猫。”其他模型都会遗漏一些细节。这些细节是否关系重大,取决于我们试图解决的问题究竟是什么,还要看我们想要得到的答案有多精确。 在我们使用的工具中,统计模型并非唯一一个要求我们做出粗略估算的工具

2014-08-12 16:01:55 3680

转载 概率估计

最大似然估计最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。    最大似然估计中采样需满足一个很重要的假设

2014-08-12 16:01:45 817

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除