关闭
当前搜索:

搜索引擎:MapReduce实战----倒排索引

倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。...
阅读(1978) 评论(0)

MapReducer中的多次归约处理

为什么需要在Mapper端进行归约处理? 为什么可以在Mapper端进行归约处理? 既然在Mapper端可以进行归约处理,为什么在Reducer端还要处理?...
阅读(1634) 评论(0)

hadoop命令——hdfs

hadoop hdfs常用命令...
阅读(1320) 评论(0)

VirtualBox 虚拟Ubuntu系统与主机互ping

VBox安装的UBuntu虚拟系统与主机windows8之间互ping...
阅读(2779) 评论(0)

linux ifconfig命令配置ip地址

Linux(Ubuntu)关于ifconfig的若干解释...
阅读(2083) 评论(0)

二、hadoop伪分布搭建

Ubuntu14.04安装hadoop2.6伪分布环境...
阅读(3290) 评论(1)

MySQLdb的安装与使用

Python安装MySQLdb与使用教程...
阅读(2029) 评论(0)

VirtualBox 共享文件夹设置 及 开机自动挂载

首先声明:本人的Vbox虚拟机里装的是Ubuntu,本机是windows 1、用VirtualBox虚拟机的共享文件夹设置共享的本地文件(我的是设置的是本地E盘,java文件夹) 2、进入虚拟机Ubuntu系统,打开终端,用root用户操作(sudo -s回车输入密码) 首先在虚拟机上创建一个共享目录         eg:mkdir /mnt/share 实现挂载       m...
阅读(6539) 评论(3)

VirtualBox导入XXXX.vdi时报错

virtualbox导入vdi文件时出现下面的问题: 解决方法: windows+R,输入cmd,进入virtualbox的安装目录(或者在硬盘中直接进入virtualbox的安装目录,在任务栏里输入cmd),输入VBoxManage  internalcommands setvdiuuid D:\path\ubuntu.vdi  注意,在virtualbox4.0.4以...
阅读(3183) 评论(0)

新浪明星日志热门推荐(java实现)

现在进行推荐的第三步: 1:利用数据的格式如下: 2:编程语言采用的是Java,源代码如下: package top10; import java.util.*; import java.io.*; public class top {     public static void top(String []one,String []two,String []thre...
阅读(1795) 评论(0)

一、Hadoop2.6.0 单机模式配置

一、在Ubuntu下创建hadoop组和hadoop用户     增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户。   1、创建hadoop用户组                      2、创建hadoop用户          sudo adduser -ingroup hadoop hadoop...
阅读(2937) 评论(0)

Python开发安装的一些常用模块

一、BeautifulSoup模块 关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好 二、Scrapy + Selenium 模块 这两个模块结合起来使用常用于解析javascript...
阅读(7210) 评论(3)

新浪明星日志推荐系统——爬虫爬取数据(2)

由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下: import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding("utf-8") def if_st...
阅读(2189) 评论(0)

新浪明星日志推荐系统——爬虫爬取数据(1)

今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统  那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下: # -*- coding: utf-8 -*- """ Created on Wed May 20 13:55:00 2015 @autho...
阅读(2260) 评论(0)

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup impo...
阅读(2507) 评论(0)

BeautifulSoup中解决乱码问题

由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题 我的代码如下: import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf-8') fp = file("test.txt","wb+") page=urllib.urlop...
阅读(1097) 评论(0)

python安装beautifulsoup

注明:python2.7版本貌似只支持beautifulsoup4.4 正常情况下在dos命令下将beautifulsoup解压在python安装目录下 进入beautifulsoup文件夹  使用python setup.py install安装 我在安装时遇到的问题是使用上述命令抛出错误 出现问题: 由于之前python文件我选择了由spyder打开,所以在此解压安装出...
阅读(1522) 评论(0)

Python爬虫抓取图片,网址从文件中读取

利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 import urllib import re import os                                                             #urllib,r...
阅读(1586) 评论(1)

ISBN号码(Java)CCF模拟试题

import java.util.Scanner; public class Main {    public static void main(String[] args) {           Scanner ss = new Scanner(System.in);        String str = ss.nextLine();        char str1[]...
阅读(1692) 评论(0)

出现次数最多的数(java),ccf考试模拟题

import java.util.Scanner; public class Main {    public static void main(String[] args) {        Scanner sc = new Scanner(System.in);        int n = sc.nextInt();        int a[] = new int[n];...
阅读(2001) 评论(0)
251条 共13页首页 上一页 ... 11 12 13 下一页 尾页
    微信公众号【数据与算法联盟】

    扫码关注公众号,不定期推送实战文章!

    扫码加我微信,拉你进数据算法大佬群!
    个人资料
    • 访问:1066104次
    • 积分:11758
    • 等级:
    • 排名:第1530名
    • 原创:227篇
    • 转载:22篇
    • 译文:2篇
    • 评论:343条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论