sanfendi
码龄13年
关注
提问 私信
  • 博客:1,322,458
    社区:675
    问答:1,241
    1,324,374
    总访问量
  • 200
    原创
  • 811,693
    排名
  • 302
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:云南省
  • 加入CSDN时间: 2012-06-17
博客简介:

三分地

博客描述:
单纯明快。
查看详细资料
个人成就
  • 获得84次点赞
  • 内容获得37次评论
  • 获得230次收藏
  • 代码片获得145次分享
创作历程
  • 2篇
    2017年
  • 1篇
    2016年
  • 10篇
    2015年
  • 215篇
    2014年
  • 2篇
    2013年
成就勋章
TA的专栏
  • hadoop技术
    11篇
  • java
    21篇
  • nlp
    4篇
  • 信息论
    1篇
  • 项目
    2篇
  • 数据库
    2篇
  • 杂谈
    5篇
  • linux
    1篇
  • 数据结构
    11篇
  • 机器学习
    14篇
  • lucene
    1篇
  • 算法
    5篇
  • hadoop
    14篇
  • hadoop-2.2.0中文文档
    16篇
  • 翻译
    8篇
  • hbase
    2篇
  • leetcode
    119篇
  • 计算广告
    2篇
  • spark
    5篇
  • hive
    3篇
  • Python
    3篇
  • 统计学
    1篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

ADSL命令定时切换

使用 scapy 爬取数据时,经常遇到 IP 被限制,在一些 VPS 上使用 adsl 重连可以达到切换 IP 的目的。 在 windows 上可以使用以下命令连接或断开 adsl。rasdial ADSL user_name password #连接rasdial ADLS /d #断开为了方便,使用以下 python 脚本定时控制:#coding:utf-8import osimport
原创
发布博客 2017.06.29 ·
1601 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

outlook html 邮件表格边框问题

工作中需要定时自动发送一个邮件报表,使用 HTML、CSS 编写正文。为了减少代码量,在外部 style 中定义如下:td {border:1px solid;}这种写法在 foxmail 上显示的邮件是正常的,但在 outlook 上邮件显示没有边框,于是在每一个 td 加上 border 属性,发现边框分别出现,即每两格之间的边框都出现,非常难看。按照如下编写则会正常显示: table 有一个
原创
发布博客 2017.06.16 ·
13789 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

备份MySQL大表的数据

需求:有一个数据库,其中一些表每天写入百万条。现要求将某段时间的表数据保存到本地。最开始使用fetchall(),导致服务器直接宕机。如果使用mysqldump命令,会锁表,导致不能写入数据。后来发现python 的MySQLdb提供了fetchmany()的函数,可以控制每次获取的行数。以下的代码可以根据where条件读取数据库,而不给服务器造成很大压力。# coding=utf-8# crea
原创
发布博客 2016.01.27 ·
2942 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

wget命令从kaggle.com下载文件

kaggle.com上的数据集有时候会比较大 ,而且没有提供网盘下载机制,国内下载速度非常慢,同时下载需要验证,也无法使用迅雷工具下载。kaggle论坛上看到有wget的下载方式介绍[1]: 做法是先登录kaggle.com,记下浏览器中的cookie,将cookie保存到cookies.txt中,执行如下命令:wget -x --load-cookies cookies.txt -P
原创
发布博客 2015.11.02 ·
8922 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

使用Spark SQL 探索“全国失信人数据”

“全国法院失信被执行人名单”,网址:http://shixin.court.gov.cn/,可供查询,用于惩罚失信人员。数据量有100多万,也算是大数据了。其中身份证号已被处理,并不能直接看到全部号码。本人承诺不将此数据用于非法用途和不正当用途,仅作为个人学习数据处理分析的数据源,不针对任何个人和组织。数据字段如下: 被执行人姓名/名称 性别 年龄 身份证号码/组织机构代码
原创
发布博客 2015.09.04 ·
2738 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

使用Spark和Zeppelin探索movie-lens数据

MovieLens 100k数据包含有100,000条用户与电影的相关数据。 首先下载并解压数据:wget http://files.grouplens.org/datasets/movielens/ml-100k.zipunzip ml-100k.zipcd ml-100k#用户文件(ID,年龄,性别,职业,邮编)zhf@ubuntu:~/Downloads/ml-100k$ head
原创
发布博客 2015.08.30 ·
4410 阅读 ·
2 点赞 ·
2 评论 ·
7 收藏

Apache Zeppelin简介

Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享) 可实现你所需要的: - 数据采集 - 数据发现 - 数据分析 - 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。 甚至可以添加自己的语言支持。如何写一个
翻译
发布博客 2015.04.01 ·
28658 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

SQL注入

通过成功地SQL注入,可能可以拿到目标数据库的全部信息!首先要找到目标网址,以进行漏洞测试。在google中搜索:inurl:news.php?id=2任意点入一个网址:在网址后追加SQL语句,如果报错,则OK,可注入,如果未报错,无可注入漏洞或未找到。 比如,找到一个网址:http://www.calidus.ro/en/news.php?id=2将此链接变成如下,去访问
原创
发布博客 2015.03.24 ·
1861 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

简单的商品信息爬虫——爬易迅网

收集到很多易迅网的商品ID,于是想把这些ID对应的商品信息爬下来。通过简单分析发现,易迅网的各类信息都是直接放在HTML页面上,所以,解析一个页面就好了。最后返回每个ID对应的商品url,标题,易迅价,促销价,类目 。下面是python代码:#!/usr/bin/env python#coding:utf-8'''Created on 2015年03月11日@author: z
原创
发布博客 2015.03.12 ·
1570 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

1000万条用户名密码数据概览

一名安全研究员发布了一份包含1000万条记录的用户名、密码文件。原文可见:Today I Am Releasing Ten Million Passwords下载下来看看:确实是刚好有1000万条记录$ wc -l 10-million-combos.txt 10000000 10-million-combos.txt共有两列,分别是username、password$
原创
发布博客 2015.03.07 ·
3173 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hydra Maven通不过 hadoop

答:

你好,因为在maven仓库已经找不到这个版本了,你去maven仓库网站上搜一下别的版本。更新一下版本号。

回答问题 2015.02.12

实时分析-分析和可视化流数据的技术

发布资源 2015.02.09 ·
pdf

Spark开发指南

发布资源 2015.02.06 ·
pdf

spark apache日志分析、流数据处理教程

发布资源 2015.02.06 ·
pdf

Spark大数据处理:技术、应用与性能优化(全)

发布资源 2015.02.02 ·
mobi

Functional Design Patterns

发布资源 2015.02.01 ·
pdf

wireshark中文手册.pdf

发布资源 2015.02.01 ·
pdf

使用Spark计算PV、UV

日志字段格式:id,ip,url,ref,cookie,time_stamp把日志文件放到HDFS。仅取了1000行。hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input计算PV。scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro
原创
发布博客 2015.01.28 ·
10847 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Python数据可视化手册.pdf

发布资源 2015.01.18 ·
pdf

Scala编程.pdf

发布资源 2015.01.18 ·
pdf
加载更多