三分地

单纯明快。

ADSL命令定时切换

使用 scapy 爬取数据时,经常遇到 IP 被限制,在一些 VPS 上使用 adsl 重连可以达到切换 IP 的目的。 在 windows 上可以使用以下命令连接或断开 adsl。rasdial ADSL user_name password #连接 rasdial ADLS /d #断开为了...

2017-06-29 14:39:38

阅读数 570

评论数 0

outlook html 邮件表格边框问题

工作中需要定时自动发送一个邮件报表,使用 HTML、CSS 编写正文。为了减少代码量,在外部 style 中定义如下:td {border:1px solid;}这种写法在 foxmail 上显示的邮件是正常的,但在 outlook 上邮件显示没有边框,于是在每一个 td 加上 border 属性...

2017-06-16 20:35:03

阅读数 4602

评论数 0

备份MySQL大表的数据

需求:有一个数据库,其中一些表每天写入百万条。现要求将某段时间的表数据保存到本地。最开始使用fetchall(),导致服务器直接宕机。如果使用mysqldump命令,会锁表,导致不能写入数据。后来发现python 的MySQLdb提供了fetchmany()的函数,可以控制每次获取的行数。以下的代...

2016-01-27 18:05:02

阅读数 1462

评论数 0

wget命令从kaggle.com下载文件

kaggle.com上的数据集有时候会比较大 ,而且没有提供网盘下载机制,国内下载速度非常慢,同时下载需要验证,也无法使用迅雷工具下载。 kaggle论坛上看到有wget的下载方式介绍[1]:  做法是先登录kaggle.com,记下浏览器中的cookie,将cookie保存到cookies....

2015-11-02 16:12:20

阅读数 6198

评论数 0

使用Spark SQL 探索“全国失信人数据”

“全国法院失信被执行人名单”,网址:http://shixin.court.gov.cn/,可供查询,用于惩罚失信人员。数据量有100多万,也算是大数据了。其中身份证号已被处理,并不能直接看到全部号码。本人承诺不将此数据用于非法用途和不正当用途,仅作为个人学习数据处理分析的数据源,不针对任何个人和...

2015-09-04 15:06:34

阅读数 1917

评论数 0

使用Spark和Zeppelin探索movie-lens数据

MovieLens 100k数据包含有100,000条用户与电影的相关数据。 首先下载并解压数据:wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100k.zip cd ml-100k #用户文件(I...

2015-08-30 20:31:08

阅读数 3351

评论数 2

Apache Zeppelin简介

Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享) 可实现你所需要的: - 数据采集 - 数据发现 - 数据分析 - 数据可视化和协作支持多种语言,默认是scala(背后是spark shell...

2015-04-01 12:13:53

阅读数 21079

评论数 0

SQL注入

通过成功地SQL注入,可能可以拿到目标数据库的全部信息! 首先要找到目标网址,以进行漏洞测试。 在google中搜索:inurl:news.php?id=2 任意点入一个网址:在网址后追加SQL语句,如果报错,则OK,可注入,如果未报错,无可注入漏洞或未找到。  比如,找到一个网址:http://...

2015-03-24 18:30:07

阅读数 1389

评论数 0

简单的商品信息爬虫——爬易迅网

收集到很多易迅网的商品ID,于是想把这些ID对应的商品信息爬下来。通过简单分析发现,易迅网的各类信息都是直接放在HTML页面上,所以,解析一个页面就好了。 最后返回每个ID对应的商品url,标题,易迅价,促销价,类目 。 下面是python代码: #!/usr/bin/env python ...

2015-03-12 15:37:48

阅读数 1235

评论数 0

1000万条用户名密码数据概览

一名安全研究员发布了一份包含1000万条记录的用户名、密码文件。原文可见: Today I Am Releasing Ten Million Passwords 下载下来看看: 确实是刚好有1000万条记录 $ wc -l 10-million-combos.txt 10000000...

2015-03-07 15:54:45

阅读数 1318

评论数 0

使用Spark计算PV、UV

日志字段格式: id,ip,url,ref,cookie,time_stamp 把日志文件放到HDFS。仅取了1000行。 hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input 计算PV。 scala> val text...

2015-01-28 14:06:06

阅读数 8763

评论数 0

Kaggle竞赛题之——Sentiment Analysis on Movie Reviews

Classify the sentiment of sentences from the Rotten Tomatoes dataset 题目链接:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews 越来越喜欢iPytho...

2015-01-18 13:49:48

阅读数 4051

评论数 2

Kaggle竞赛题目之——Digit Recognizer

Classify handwritten digits using the famous MNIST data This competition is the first in a series of tutorial competitions designed to introduce peo...

2015-01-16 12:24:47

阅读数 4170

评论数 1

User-Agent分析及其价值简析

User-Agent,用户代理。用户在上网访问的时候会作为HTTP的包头的一部分向服务器发送,用于识别用户的当前环境,如浏览器及版本号、操作系统等信息。在Chrome中可以在访问网站的时候按下F12查看。 比如我在使用的Chrome的User-Agent: Mozilla/5.0 (Windows...

2014-12-19 20:14:34

阅读数 20554

评论数 0

URL链接中的utm_source,utm_medium简析

工作中需要分析一些链接,统计分析一些信息。比如如下的链接: http://lightapplication.xxxx.com/?utm_source=ucweb&utm_medium=cpt&utm_term=zhilian&utm_content=textlink&am...

2014-12-17 17:37:36

阅读数 39743

评论数 0

Kaggle竞赛题目之——Titanic: Machine Learning from Disaster

The sinking of the RMS Titanic is one of the most infamous shipwrecks in history.  On April 15, 1912, during her maiden voyage, the Titanic sank afte...

2014-11-25 19:47:00

阅读数 4621

评论数 4

Kaggle竞赛题目之——Predicting a Biological Response

Predict a biological response of molecules from their chemical properties 从分子的化学属性中预测其生物反应。 The objective of the competition is to help us build as...

2014-11-24 17:24:00

阅读数 3253

评论数 0

LeetCode——Subsets

Given a set of distinct integers, S, return all possible subsets. Note: Elements in a subset must be in non-descending order.The solution set must...

2014-11-23 13:24:16

阅读数 2020

评论数 0

LeetCode——Simplify Path

Given an absolute path for a file (Unix-style), simplify it. For example, path = "/home/", => "/home" path = "/a/./b/../...

2014-11-22 18:13:22

阅读数 1769

评论数 0

Minimum Path Sum

Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which minimizes the sum of all numbers along its path....

2014-11-22 13:42:30

阅读数 1708

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭