- 博客(451)
- 资源 (38)
- 收藏
- 关注
原创 hadoop 运行wordcount 例子
#创建几个目录hadoop fs -mkdir /user/hadoop fs -mkdir /user/wallehadoop fs -mkdir /user/walle/wordcount#把本地文件拷贝到dfs里hadoop dfs -copyFromLocal ./inputText.txt /user/walle/wordcount#运行,注意output3目录不用创建ha...
2018-06-08 06:23:03 495
原创 Mac 安装 Hadoop 3.x
1.安装java略2. SSH首先在系统里打开远程登录,位置在 System Preference -> Sharing 中,左边勾选 Remote Login,右边选择 All Users。ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod ...
2018-06-08 06:19:38 12015 1
原创 python pandas 实战 电影评分处理
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport jsonfrom pandas import DataFrame, Seriesunames = ['user_id', 'gender', 'age', 'occupation', 'zip']#用read_table方式读取数据,...
2018-06-06 19:24:13 2234
原创 python pandas 实战 显示时区按照windows和非windows进行分解
#去除naresults = Series([x.split()[0] for x in frame.a.dropna()])# print(results[:5])# print(results.value_counts()[:8])cframe = frame[frame.a.notnull()]#得到一个np,如果包含Windows就是Windows,不然是NotWindowso...
2018-06-06 19:23:01 398
原创 python pandas 实战 对时区进行计数,用pyplot绘制前10
import pandasimport matplotlib.pyplot as pltimport numpy as npimport jsonfrom pandas import DataFrame, Seriespath = 'ch02/usagov_bitly_data2012-03-16-1331923249.txt'#从文件中读取records = [json.load...
2018-06-06 19:20:55 598
原创 scrapy CrawlSpider 爬全站数据
# -*- coding: utf-8 -*-import scrapyfrom scrapy.spiders import CrawlSpider, Rule# from scrapy.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.linkextractors import LinkExtractorfrom Craw...
2018-06-05 17:48:39 899
原创 python获得两个数组交集、并集、差集的方法
1.交集# 方法一:a = [2, 3, 4, 5]b = [2, 5, 8]tmp = [val for val in a if val in b]print(tmp)# [2, 5]# 方法二print (list(set(a).intersection(set(b)))) 2. 并集print (list(set(a).union(set(b))))3.差集print (li...
2018-06-03 16:58:02 47604
原创 python 验证码连通域分割
1.思路是用深度遍历,对图片进行二值化处理,先找到一个黑色像素,然后对这个像素的周围8个像素进行判断,如果没有访问过,就保存起来,然后最后这个数组的最小x和最大x就是x轴上的切割位置。这种分割的方法还是只能适用于没有粘连的验证码,比垂直分割的好处是,可以处理位置比较奇怪的验证码。def cfs(img): """传入二值化后的图片进行连通域分割""" pixdata = img.l...
2018-06-03 15:49:59 4245
原创 python 中的 copy 和deepcopy的区别
import copylista = [1,2,3,['a','b']]listb = copy.copy(lista)listc = copy.deepcopy(lista)print(lista)print(listb)print(listc)lista.append(5)print(lista)print(listb)print(listc)lista[3].ap...
2018-06-03 10:01:01 366
原创 python from sys import argv
如果想对python脚本传参数,那么就需要命令行参数的支持了,这样可以省的每次去改脚本了。用法是:python xx.py xxx from sys import argvprint(argv[0])print(argv[1]) python ./argvTest.py 1 2 输出: ./argvTest.py 1 argv[1]表示第一个参数,0是脚本文件名路径if __name__ ==...
2018-06-03 08:25:00 3159
原创 Python Process 多进程 multiprocessing
《Python 多线程》 可以跟这篇文章进行比较 from multiprocessing import Processimport timedef work(x, n): print(x) time.sleep(2) print(n)def otherWork(x, n): print(x) time.sleep(2) print...
2018-06-02 10:07:04 579
原创 python selenium 保存cookie 读取cookie
1. 保存cookie到文件中cookies = self.browser.get_cookies() jsonCookies = json.dumps(cookies) with open('cookies.json', 'w') as f: f.write(jsonCookies) 2.从文件中读取cookie self.browser....
2018-06-01 20:49:24 11299
原创 python request 保存cookie
import requestsimport jsonlogin_url = 'http://www.xxxxxx.com/wp-login.php'def get_cookie(account, password): s = requests.Session() payload = { 'log' : account, 'pwd' : p...
2018-06-01 20:03:02 13407 1
原创 python 迭代器
容器是一系列元素的集合,str、list、set、dict、file、sockets对象都可以看作是容器,容器都可以被迭代(用在for,while等语句中),因此他们被称为可迭代对象。可迭代对象实现了__iter__方法,该方法返回一个迭代器对象。迭代器持有一个内部状态的字段,用于记录下次迭代返回值,它实现了__next__和__iter__方法,迭代器不会一次性把所有元素加载到内存,而是需要的时...
2018-06-01 17:56:16 206 1
原创 python os.walk 遍历文件夹
import osfor root, dirs, files in os.walk(".", topdown=False): for name in files: print(os.path.join(root, name)) for name in dirs: print(os.path.join(root, name)) topdown --可...
2018-05-31 17:14:37 1502
原创 scrapy 为每个spider 设置不同的pipelines
class ExceptionspiderSpider(scrapy.Spider): name = 'exceptionSpider' # allowed_domains = ['baidu.com'] start_urls = ['http://baidu.com/'] custom_settings = { 'ITEM_PIPELINES':...
2018-05-29 18:34:03 2255
原创 python yield
#!/usr/bin/python# -*- coding: UTF-8 -*- def fab(max): n, a, b = 0, 0, 1 while n < max: yield b # 使用 yield # print b a, b = b, a + b n = n + 1 ...
2018-05-29 15:50:21 248
原创 python 垂直投影分割
def vertical(img, threashold, outDir): ''' :param img: :param threashold: 阀值 :param outDir: 保存位置 :return: ''' w, h = img.size pixdata = img.load() x_array = [] ...
2018-05-28 18:12:43 4302 5
原创 Python Image 对验证码进行灰度和二值法处理 去掉边框
def binarizing(img, threashold): img = img.convert("L") # 转灰度 pixdata = img.load() w, h = img.size for y in range(h): for x in range(w): if pixdata[x, y] < thre...
2018-05-28 17:24:13 2561
原创 python image 垂直切割图片 验证码图片识别处理
这样的一张图片,用普通的等宽来切割:def sliceImg(img, outDir, count = 4): w, h = img.size eachWidth = int(w / count) for i in range(count): box = (i * eachWidth, 0, (i + 1) * eachWidth, h) i...
2018-05-28 13:57:51 4954 2
原创 python enumerate
list1 = ['a', 'b', 'c']i = 0for item in list1: print(i, list1[i]) i += 1for i, item in enumerate(list1): print(i, item) 0 a1 b2 c0 a1 b2 c可以看到比普通的for循环方便不少http://www.codeblogbt...
2018-05-27 20:01:34 255
原创 python *args **kwargs
一、简述1、*args和**kwargs 这两个是python中方法的可变参数。2、*args表示任何多个无名参数,它是一个tuple;3、**kwargs表示关键字参数,它是一个dict。并且同时使用*args和**kwargs时,必须*args参数列要在**kwargs前,像foo(a=1, b='2', c=3, a', 1, None, )这样调用的话,会提示语法错误“SyntaxErro...
2018-05-27 19:53:19 522
原创 python xpath 简单语法
1.例子item['price'] = response.xpath('//span[@class="p-price"]/span[2]/text()').extract_first() 1.//开头表示如果我们不想定义它的父元素,就用//表示 2.匹配具体的属性值,这里是class=p-price的 3.xpath一级级用/来 4.[2] 表示第二个元素,xpath中第一个是1,不是0 5.获取...
2018-05-27 17:05:53 3864
原创 python 搜索插入位置
给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。你可以假设数组中无重复元素。示例 1:输入: [1,3,5,6], 5输出: 2示例 2:输入: [1,3,5,6], 2输出: 1示例 3:输入: [1,3,5,6], 7输出: 4示例 4:输入: [1,3,5,6], 0输出: 0class Soluti...
2018-05-27 09:19:19 1211
原创 python 寻找重复的数
给定一个包含 n + 1 个整数的数组 nums,其数字都在 1 到 n 之间,包括 1 和 n ,可知至少存在一个重复的整数。假设只有一个重复的整数,找出这个重复的数。示例 1:输入: [1,3,4,2,2] 输出: 2示例 2:输入: [3,1,3,4,2]输出: 3说明:不能更改原数组(假设数组是只读的)。只能使用额外的 O(1) 的空间。时间复杂度小于 O(n2) 。数组中只有一个重复...
2018-05-27 07:55:54 3105
原创 python 两个数组的交集 intersection of two arrays
给定两个数组,写一个函数来计算它们的交集。例子:给定 num1= [1, 2, 2, 1], nums2 = [2, 2], 返回 [2].提示:每个在结果中的元素必定是唯一的。我们可以不考虑输出结果的顺序。class Solution(object): def intersection(self, nums1, nums2): """ :type nums...
2018-05-27 07:44:24 1451
原创 python 找不同 Find the Difference
给定两个字符串 s 和 t,它们只包含小写字母。字符串 t 由字符串 s 随机重排,然后在随机位置添加一个字母。请找出在 t 中被添加的字母。示例:输入: s = "abcd" t = "abcde"输出: e解释: 'e' 是那个被添加的字母。class Solution(object): def findTheDifference(self, s, t): """ ...
2018-05-27 07:02:16 1285
原创 python 单例
在python中,我们可以用多种方法来实现单例模式:- 使用模块- 使用__new__- 使用装饰器- 使用元类(metaclass)1.使用模块 # mysingle.pyclass MySingle: def foo(self): passsinleton = MySingle()将上面的代码保存在文件mysingle.py中,然后这样使用:from mysingle ...
2018-05-26 14:51:46 1766
原创 python 使用 redis
### String操作方法 | 作用 | 示例 | 示例结果---|---|---|---|---set(name, value) | 给name赋值为value | redis.set('name', 'Bob') | Trueget(name) | 返回数据库中key为name的string的value | redis.get('name') | b'Bob'getset(nam...
2018-05-26 14:25:55 422
原创 python 正则表达式
1. sub 来删除匹配到的东西 #去除标签s = "<div>\<p>岗位职责:</p>\<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>\<p><br></p>\<p>必备要求:</p>\
2018-05-26 14:16:38 222
原创 python lambda
编程中提到的 lambda 表达式,通常是在需要一个函数,但是又不想费神去命名一个函数的场合下使用,也就是指匿名函数。 add = lambda x,y : x + yprint(add(1, 2))list = [3, 5, -4, -1, 0, -2, -6]#用lambdaprint(sorted(list, key=lambda x: abs(x)))def get...
2018-05-26 11:20:41 709
原创 mongo 数据备份用户名加密码
语法mongodump命令脚本语法如下:>mongodump -h dbhost -d dbname -o dbdirectory-h:MongDB所在服务器地址,例如:127.0.0.1,当然也可以指定端口号:127.0.0.1:27017 -d:需要备份的数据库实例,例如:test -o:备份的数据存放位置,例如:c:\data\dump,当然该目录需要提前建立,在备份完成后,系统自动在...
2018-05-26 07:32:07 2459
原创 python plotly 进行数据可视化
https://plot.ly/python/文档网址是上面这个。分2种方式绘制,如果注册了用户名和密码,可以保存到它的服务器上,或者就离线模式,本地查看html1. 折线图import plotly.plotly as pyimport plotly.graph_objs as goimport plotly.offline as pltofftrace1 = go.Scatter( ...
2018-05-26 07:16:18 16123 3
原创 python cookie 保存到文件里,以及从文件中读取cookie
data = bytes(urllib.parse.urlencode(loginData), encoding='utf8')# cookieJar = http.cookiejar.CookieJar()cookieJar = http.cookiejar.MozillaCookieJar('cookie.txt')handler = urllib.request.HTTPCookieP...
2018-05-25 15:29:43 5140
原创 python3 urllib 模拟登陆抓取app 数据
import urllibimport urllib.requestimport http.cookiejarloginURL = 'http://120.55.151.61:80/V2/StudentSkip/loginCheckV4.action'ListURL = "http://120.55.151.61:80/Treehole/V4/Message/getListByType....
2018-05-25 14:00:03 3349
原创 python PyQuery 使用
doc = pq(html) items = doc("#plist .gl-item").items() for item in items: # print(item) strItem = str(item).replace('xmlns', 'xmlns1') item = pq(strItem) priceIt...
2018-05-25 12:51:25 591
原创 Python selenium 使用
1. headless模式初始化chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(chrome_options=chrome_options)wait = WebDriverWait(browser, 10) 2.打开一个U...
2018-05-24 20:29:34 384
原创 scrapyd 安装使用
scrapyd解决什么痛点?1. 可以通过浏览器看爬虫的运行状态,包括时间,日志啊2.可以通过curl直接运行爬虫和停止爬虫1. 安装scrapydpip install scrapyd 2. 运行scrapydscrapyd根目录下执行scrapyd3.运行爬虫curl http://localhost:6800/schedule.json -d project=default -d spid...
2018-05-23 21:00:44 402
原创 Python 用pandas 进行数据清洗处理
1.数据读取import pandas as pdimport numpy as npimport pymongodata = pd.DataFrame(pd.read_excel('000.xlsx', index=False))client = pymongo.MongoClient("mongodb://XX:XXXXX@192.168.3.7:2018",connect=Fal...
2018-05-23 20:14:18 10819
原创 Linux Crontab 配置使用
1.编辑键入 crontab -e 编辑crontab服务文件直接编辑/etc/crontab 文件,即vi /etc/crontab,添加相应的任务。 2.格式分 小时 日 月 星期 命令0-59 0-23 1-31 1-12 0-6 command (取值范围,0表示周日一般一行对应一个任务)“*”代表取值范围内...
2018-05-22 13:00:57 537
native-audio.rar
2012-04-20
三星Calendar
2013-08-26
Air Hockey.7z
2013-08-10
boost xpressive
2013-07-24
MFC 多线程
2013-07-22
MFC 数据库操作
2013-07-22
Android Opengles 例子
2013-06-22
号码归属地.rar
2013-05-28
CursorLoadSample.rar
2013-05-17
HLSL Pixel Shader
2012-12-18
YawPitchRoll.rar
2012-12-07
RotationArbitrary.rar
2012-12-04
3ds max 2009 导出x文件插件(panda)
2012-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人