liyan123hn-CSDN博客

原创 python爬虫之手机模拟

一般情况下，网站是通过对http请求的header 进行识别来判断是访问的是pc还是手机，哪个版本的浏览器所以，可以通过修改header的方法来模拟手机。例如下面就是模仿了安卓4.3b版本的手机，androidN1浏览器headers = { 'User-Agent':'Mozilla/5.0 (Linux; U; Android 4.3; en-us; SM-N900T Buil

2015-02-06 10:17:57 9059

原创处理python爬虫的timeout报错

尽管添加了import socketsocket.setdefaulttimeout(timeout)但是在爬虫过程中依然会出现Traceback (most recent call last): File "C:\Users\wenxue5\Documents\Tencent Files\910872628\FileRecv\zongheng.py", line 93

2015-02-04 18:08:37 18818

原创 python 爬虫百度搜索结果

因为合作的关系，用户在百度上搜索一些检索词时，百度会把我们网站放到搜索结果的第一位，但是经过实践发现，好多关键字都不是这样的。所以写了一个小爬虫来检验2000-3000个关键字的移动和pc端百度搜索结果。利用put的方法提交url，然后对返回的数据进行正则匹配，找出第一位的搜索结果是不是含有我们网站的链接。python # coding=utf-8import urllibim

2015-02-04 14:37:06 2283

原创工作纪要---解决统计差别问题

1、解决统计差别问题 zongheng统计的访问uv和百度统计相差较大经过逐项对比数据，查找发现是因为直接访问的uv差距有部分用户禁用的cookie，导致无id信息，没有列入统计结果是对该用户的ip地址进行记录，然后通过对总量的 uv/ip 的出比值，再进行相乘或者是总量pv/uv得出比值，再进行计算无cook

2015-02-01 20:00:50 557

原创书籍下架情况分析

1、因为净网的原因，下架了几乎一半的书籍，包含签约和非签约书和神马搜索有推广协议，分为阿拉丁(搜索结果放于首页首项)和自然搜索两种近期无线端来自神马的uv和pv大幅下降时间pv总uv阿拉丁 pv阿拉丁uv非阿拉丁pv非阿拉丁uv201412154304852371

2015-02-01 19:59:14 2981

原创 hive case when 和osort by 和group by使用记录

1、当某个字段应用了case when 条件并且使用了or，且where查询条件的里正好有该字段，查询结果会出错针对查询一出现问题，修改下SQL，将case when then else end, 改成case when then when then else end即可2、Order by 能够预期产生完全排序的结果，但是它是通过只用一个reduce来做到这点的。

2015-02-01 19:52:02 4413

原创排序算法，插入、快速、希尔、基数、归并排序的代码实现和效率分析

排序算法，插入、快速、希尔、基数、

2014-09-30 15:31:15 610

原创神经网络原理

神经网络原理 jis

2014-09-12 22:07:45 1013

原创找出坐标集中的最远距离及其坐标

如何从m个数中找出最大的n个数

2014-09-11 09:30:59 2105

转载 UFLDL教程

http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B

2014-08-26 10:27:59 606

原创华住酒店App(wp8)的使用体验

好久没有入住

2014-08-22 02:11:47 2565

原创数据挖掘任务常用算法笔记

数据挖掘任务一般可以分两类：描述和预测。描述性挖掘任务刻画数据库中数据的一般特征。预测性数据挖掘任务在当前的数据上进行推断，以进行预测。数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型，包括数据特征化和区分，关联分析，分类，聚类，孤立点分析，演变分析等。其中分类、聚类可以将数据库中的数据自动地分类，因此也有人把它们统称为数据库分段(Database Segmentation)

2014-08-21 21:36:00 1163

原创 python最小公倍数与最大公约

m=int(raw_input('please input a integer m'))n=int(raw_input('please input a integer n'))if m>n: m,n=n,mmax =1for i in range(2,n+1): if(n%i == 0 and m%i == 0): max=i else: print ipri

2014-08-20 20:25:13 6967

原创数据可视化----Flotr2和Raphaël 绘制气泡图

Flotr2

2014-08-19 09:30:03 3221

原创 notepad++配置python运行

1、首先在notepad++中打开一py文件2、点击运行或者

2014-08-18 12:44:57 1066

转载 python程序的调试方法

【转自：http://blog.csdn.net/luckeryin/article/details/4477233】本文讨论在没有方便的IDE工具可用的情况下，使用pdb调试python程序源码例子例如，有模拟税收计算的程序：#!/usr/bin/python def debug_demo(val): if val

2014-08-13 00:55:05 538

原创大数据处理学习之垃圾邮件判定1

假设目前一文件中存放有一千万封邮件，如何将其分类，按照垃圾邮件和正常邮件分别插入数据库中。处理这个问题，选择贝叶斯分类的方法。1、首先收集大量正常邮件和垃圾邮件作为样本2、建立一个过滤词表，包含有对邮件分类不产生作用、不代表邮件特征的字符串列入，如"的"、“得”、“我”、“们”、“it”、“”，然后当训练分类器时，将这些字符串移除。3、建立两个哈希表，Hashtable_Goo

2014-08-12 16:05:03 1609

原创贝叶斯后验定理与预测(信号与噪声读书笔记)

正如统计学家乔治·E·P·博克斯所写：“所有的模型都是错误的，但是其中有些是有用的。”这句话的意思就是，所有模型都是这个世界的简化形式，因为这是必要的。正如另一位数学家所说：“一只猫最好的模型就是一只猫。”其他模型都会遗漏一些细节。这些细节是否关系重大，取决于我们试图解决的问题究竟是什么，还要看我们想要得到的答案有多精确。在我们使用的工具中，统计模型并非唯一一个要求我们做出粗略估算的工具

2014-08-12 16:01:55 3951

转载概率估计

最大似然估计最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。简单而言，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高，但是可以通过采样，获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。最大似然估计中采样需满足一个很重要的假设

2014-08-12 16:01:45 930

liyan123hn的专栏