2017年01月_XuRuiIsCoding

11月 09月 07月 02月 01月

转载 Python中几种数据结构的整理，列表、字典、元组、集合

列表：shoplist = ['apple', 'mango', 'carrot', 'banana']字典：di = {'a':123,'b':'something'}集合：jihe = {'apple','pear','apple'}元组： t = 123,456,'hello'1.列表空列表：a=[] 函数方法：a.append(3) 　　>

2017-01-07 16:50:25 857

原创 Pyhton实例，抓取百度词条关于Python的内容（二）

直接上代码 1.UrlManager 管理器# coding:utf8class UrlManager(object): #初始化，待爬取URL和已爬取URL def __init__(self): self.new_urls = set() self.old_urls = set() #添加新URL进管理器 def add_

2017-01-07 15:20:57 2436 2

原创 Pyhton实例，抓取百度词条关于Python的内容（一）

1.基本结构开发爬虫实例: 1.1、步骤 1.1.1、确定目标：确定抓取哪个网站的哪些网页的哪部分数据。本实例确定抓取百度百科python词条页面以及它相关的词条页面的标题和简介。 1.1.2、分析目标：最重要，确定抓取数据的策略。一是分析要抓取的目标页面的URL格式，用来限定要抓取的页面的范围；二是分析要抓取的数据的格式，在本实例中就是要分析每一个词条页面中标题和简介所在的标签的格式；三

2017-01-06 18:25:07 6621

原创 Python 基础知识

1.# -- coding: utf-8 -这是用来说明你的Python源程序文件用使用的编码。缺省情况下你的程序需要使用ascii码来写，但如果在其中写中文的话，python解释器一般会报错，但如果加上你所用的文件编码，python就会自动处理不再报错。上述格式还可以写成：coding=utf-8或coding:utf-82.爬虫的基本架构其中 URL管理器用来管理已爬和待爬的URL；

2017-01-03 22:46:48 255

C++程序设计语言_带书签_高清完整版

因为源文件超过220M，CSDN传不上来，所以我把它放在了统一的下载地址！ C++程序设计语言：第1~3部分（原书第4版）_带书签_高清完整版.pdf C++ 程序设计语言：第4部分标准库（原书第4版）_带书签_高清完整版.pdf

2018-03-04

杨传辉著作，大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实战方面，首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程，然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。

2018-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Gexrior的博客