Blessy_Zhu-CSDN博客

原创解析库之Beautiful Soup（二）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一概述在文章解析库之Beautiful Soup（一）中已经详细介绍了Beautiful Soup库的相关内容，包括解析器、Beautiful So...

2019-02-22 15:42:49 3000 3

原创解析库之Beautiful Soup（一）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一概述通过正则表达式的学习，可以是吸纳提取页面信息的功能，（相关内容为：Python小知识-正则表达式和Re库（一）和Python小知识-正则表达式...

2019-02-22 12:24:57 3777 3

原创数据存储之文件存储（一）-TXT文件存储

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一概述数据存储是爬虫的一个很重要的部分，爬虫爬出来的数据要不存到文件中，要不就存到数据库中。基于这两个存储思想，保存形式可以动作多样，文件存储有：T...

2019-02-02 23:24:21 6075 4

原创数据存储之文件存储（二）-JSON文件存储

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一概述本篇文章主要讲的是JSON文件存储，其中包括JSON库中两个重要函数：loads()-将JSON文本字符串转化为JSON对象；dumps()-...

2019-02-02 22:33:16 5226 6

原创数据存储之文件存储（三）-CSV文件存储

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一概述这篇文章主要讲解的是CSV文件存储，主要分为数据的写入，这里面又可以分为结构化数据-字典的写入，一维列表数据的写入、二位列表数据的写入，还会讲...

2019-01-30 14:51:54 8958 4

原创 Python爬虫之csv+PIL+BytesIO+re爬取猫眼电影排行（九）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一、前言今天这篇文章写的内容是爬取猫眼电影TOP100的电影名称、时间、评分、图片等信息，首先看一下待爬取的网站内容，如图1所示：　图1通过...

2019-01-30 10:22:34 5855 4

原创 Python问题解决-Excel打开CSV格式内容时中文出现了乱码

1 问题描述在Python爬虫保存数据或者日常办公中需要下载csv文件，但是有时打开Excel文件后的中文字符是乱码，这时候该怎么办呢，本文将分享经验，如何解决Excel打开csv文件后中文乱码的问题。2 问题解决第1步首先来看一下乱码时的内容，如图1所示：图1第2步接下来，先正常打开一份空白的excel文件，将鼠标定位在第一行第一列（这边鼠标定位的位置将决定后续打开的csv文...

2019-01-29 17:57:18 8644 5

原创 Python小知识-正则表达式和Re库（二）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm1 概述上一篇文章Python小知识-正则表达式和Re库（一）讲解了正则表达式的基本内容，包括介绍了一个正则表达式的测试工具、介绍了常用的匹配规...

2019-01-28 20:33:55 2162 3

原创 Python小知识-正则表达式和Re库（一）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm1 概述在爬虫过程中，有时会遇到正则表达式的问题，每次遇到时总会想各种方法去避免、逃避，今天又遇到类似的问题了，决心找个时间好好看一下这块内容，...

2019-01-28 13:43:57 2551 3

原创如何理解yield的用法

原创不易，转载前请注明博主的链接地址：Blessy_Zhu（https://blog.csdn.net/weixin_42555080）本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm1 概述在学习Python爬虫的过程中，遇到了一个关键字-yield，刚开始并不能完全理解，查阅了许多博客，把这个内容说的很是复杂费解。后来仔细又理...

2019-01-26 22:57:27 4484 6

原创 python小知识-class类和object对象

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一.概述Java面向对象程序设计中，已经见识过面向对象程序设计的三个基本特性：封装性（Encapsulation）、继承性（Inheritance）、...

2019-01-17 20:34:01 1587 6

原创 Python小知识-模块之time、random、math、cmath模块

1.概述模块(module)能够有逻辑地组织Python代码段。把相关的代码分配到一个模状里面，从而让代码更好用，更易懂。简单地说,模块就是-一个保存了Python代码的文件。模块里能定义函数、类和变量。　2.import导入模块在Python中模块和C语言中的头文件以及Java中的包很类似，比如在Python 中要调用random函数，必须用import关键字引人random这个模块...

2019-01-13 16:00:07 1666 4

原创 Python小知识-序列数据结构之集合set（四）

这篇文章讲的是Python的集合set类型set集合简介集合是一个无序的（类似无序的还有字典），不重复的数据集合。其基本功能包括下面两种：去重：把一个还有重复元素的列表或元组等数据类型转变成集合，其中的重复元素只出现一次。使用set（）方法。进行关系测试：测试两组数据之间的交集，差集，并集等数据关系。1. 创建集合set——去重可以使用大括号{}或者set()函数创建集合。注意:创...

2019-01-10 14:39:35 1003 3

原创 Python小知识-序列数据结构之字典dict（三）

这篇文章讲的是Python的字典类型dict字典简介字典顾名思义，就是通过特定索引，找索引对应的值，Python字典(dict)是一种可变容器模型，且可存储任意类型对象，如：字符串、数字、元组等其他容器模型。字典也被称作关联数组或哈希表。1.创建字典字典由键和对应值(key----》value)成对组成。字典的每个键/值对里面键和值用‘：’分割,键/值对之间用‘，’分割，整个字典包括在花括...

2019-01-10 11:12:56 1227 8

原创 Python小知识-序列数据结构之元组tuple（二）

这篇文章讲的是Python的元组类型tuple内容简介Python的元组(tuple)与列表类似,不同之处在于元组的元素不能修改。元组使用小括号 () ,列表使用方括号 [ ]。元组中的元素类型也可以不相同。1.创建元组元组创建:括号中添加元素,并使用逗号隔开即可。实例如下:tup1 = (1,2,3)tup2 = ('张三','李四','王五')注意当元组中只包含一个元素时...

2019-01-10 10:26:36 996 3

1、前言序列顾名思义就是数据按照顺序排列，这个顺序实际上就是数据在内存中的顺序排列。序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字即它的位置或索引。序列都可以进行的操作有索引、截取(切片)、加、乘、成员检查。除此之外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法如list中的Max（）方法等。Python 内置序列类型最常见的是列表、元组、字典和集合。...

2019-01-09 20:26:14 1220 5

原创 Python小知识-利用zip函数将两个列表(list)组成字典(dict)

利用zip函数将两个列表(list)组成字典(dict)keys = ['a', 'b', 'c']values = [1, 2, 3]dictionary = dict(zip(keys, values))print(dictionary)结果如图1　　　图1

2019-01-08 15:10:37 2072 2

原创 Python小知识-append与insert的列表操作

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一、问题描述今天在看Magnus Lie Hetland写的《Python算法教程》时，偶然间看到了一个自己一直忽略的问题，即Python的list...

2019-01-05 19:35:05 3497 2

原创 Python爬虫之wordcloud+jieba爬取小说并生成词云（八）

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一、前言今天这篇文章写的内容是爬取《全书网》http://www.quanshuwang.com/book/9/9055 的《盗墓笔记小说》，然后用...

2019-01-03 21:46:56 6656 3

原创 Python小知识-sys.stdout.write和print进度条打印

打印进度条的方法用两种：一、sys.stdout.write方式这个方法中必须使用这句话每次来清理缓存。 sys.stdout.flush()import sysimport timei = 0for i in range(20): time.sleep(1) sys.stdout.write(&quot;\r# Process: %0.1f %%&quot; % (float...

2019-01-03 17:01:27 2478 2

原创 Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文（七）

Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文原创不易，转载前请注明博主的链接地址：https://blog.csdn.net/weixin_42555080本次代码的环境：运行平台： WindowsPython版本： Python3.xIDE： PyCharm一、前言当你比较喜欢一个博主的文章，而又想把它全部下载下来，这时候我们可以通过爬虫快...

2018-12-25 22:44:04 5696 5

原创 Python爬虫之urllib+Json+post向有道翻译发送数据获得翻译结果(六)

这篇文章要介绍的内容是，使用urllib和Json库，通过post向浏览器发送数据，从而实现利用Python就可以使用爬虫网站的特定功能：我们这篇的实例是向《有道翻译》中发送数据，并自动给出翻译。如下图1所示：　图1首先我们还是先给出代码：from urllib import request#注释1from urllib import parseimport jsondef get...

2018-12-24 17:11:25 2353 5

原创 Python爬虫基础之requests+BeautifulSoup+Image 爬取图片并存到本地（五）

刚学python不久，写了一个自己认为还比较简单易懂“爬取图片的方式，并保存本地指定路径下”。我爬取的内容是“Yestone邑石网”的部分图片链接如下，https://www.yestone.com/gallery/1501754333627爬取的页面如图1所示。　　图1爬取的Python代码如下import requestsfrom bs4 import BeautifulSoup ...

2018-12-22 22:49:23 9106 3

原创 Python爬虫基础之requests+xpath解决动态加载问题（四）

今天爬取的是豆瓣励志分类电影，解决动态加载问题。链接在这里：https://movie.douban.com/tag/#/?sort=T&amp;amp;amp;range=0,10&amp;amp;amp;tags=%E5%8A%B1%E5%BF%97如图1所示它的主页面：　　图1这次，需要在开发者模式，审查Network的JS或者是XHR，一般数据会在Network的 JS或者 XHR 类目里。首先我们在开发者模...

2018-12-21 22:44:25 6203 2

原创 Python爬虫基础之Requests和XPath实例（三）

如何用Python爬取多个页面的数据信息呢？这次通过豆瓣网top250的图书信息来进行学习。首先给出页面（如图1所示）的URL： https://book.douban.com/top250 ，我们要爬去的信息是：书名、链接、评分、一句话评价……　　图11. 爬取单个信息首先要是爬取单个页面中单个书本的信息，这个内容上篇文章以及记录过了，代码如下：import requests#fro...

2018-12-21 20:08:28 9705 3

原创 Python爬虫基础之 Requests+Xpath 爬取豆瓣电影（二）

我们要爬取豆瓣电影《肖申克的救赎》（如图1所示）上面的一些信息，网站地址是：https://movie.douban.com/subject/1292052/　　图１代码如下：import requests#from lxml import etreefrom lxml import htmletree = html.etreeurl = 'https://movie.doub...

2018-12-21 18:11:08 3724 5

转载 CSDN-markdown编辑器的使用

欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体...

2018-12-18 13:20:03 205

原创 Python问题解决-window下的PyCharm 的安装

PyCharm 的安装 PyCharm是由JetBrains打造一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。 1 PyCharm的下载可以从官网http...

2018-12-05 10:14:17 2050 2

经典算法50题Java版.doc

面试算法入门之经典算法40题（Java版）

2021-01-10

LSTM详细学习.docx

LSTM学习相关内容。学习LSTM需要通过五大问题来全面的理解：为什么会出现LSTM？LSTM是怎么解决CNN梯度消失的问题的？LSTM的主要内容是什么？LSTM如何代码实现？LSTM现在发展到什么地步（即有哪些变体）？通过这五个问题，了解LSTM的前世今生。

2019-09-30

charfreq.csv

本资源适用于朴素贝叶斯分类器通过姓名判断是男还是女生

2019-06-04

KNN算法综述_闭小梅 .pdf

KNN(K最近邻)分类算法是应用最为广泛的分类算法。本文介绍传统的KNN方法的基础上,根据其不足,从降低计算复杂度提高算法的执行效率,相似度度量方法,决策规则等几方面综述KNN改进算法。

2019-05-30

K_means算法研究综述_丛思安.pdf

K-means 算法研究综述，K-means 的发展已经经历了很长的一段时间，它所具有的独特优势使得其被广大研究者不断地优化和使用。

2019-05-29

利用ZIPF定律建立有效的WEB对象缓存机制

通过对Web通信量的分析，人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中，为得到所期望的Web对象命中率的要求，设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此，Zipf定律为web缓存结构的设计提供了重要的依据。适当的缓存大小结合P-LFU替换策略可以得到很高的Web缓存命中率。

2019-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Blessy_Zhu的博客