- 博客(8)
- 收藏
- 关注
原创 Python 批量读取 txt 文件为 DataFrame
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的 txt 文件,我该如何把它们写入一个 txt 文件中并且读取为 DataFrame 格式呢?首先我们要用到 glob 模块,这个python内置的模块可以说是非常的好用。glob.glob('*.txt')得到如下结果:all.txt 是我最后得...
2017-09-20 14:48:03 24012 12
原创 爬虫实战(1)——爬取校内网招聘信息的名称
最近焦虑感比较强,在思考自己以后从事的工作,与其凭空思考,不如来看点实际的数据,于是爬取了校内网的招聘信息研究下。 编写爬虫之前,我们需要先思考爬虫需要干什么、目标网站有什么特点,以及根据目标网站的数据量和数据特点选择合适的架构。编写爬虫之前,推荐使用Chrome的开发者工具来观察网页结构。在Windows和Linux,对应的快捷键是"F12"。效果如下:OK,可以看出,...
2017-09-19 10:38:39 1035
转载 Python 库学习笔记——爬虫常用的BeautifulSoup的介绍
1. 开启Beautiful Soup 之旅在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考。官方文档2. 创建 Beautiful Soup 对象首先必须要导入 bs4 库 from bs4 import BeautifulSoup
2017-09-13 16:33:34 630
原创 Python 库学习笔记—— BeautifulSoup 处理子标签、后代标签、兄弟标签和父标签
首先,我们来看一个简单的网页https://www.pythonscraping.com/pages/page3.html,打开后:右键“检查”(谷歌浏览器)查看元素:用导航树的形式简单表示出来:可知:tr 是 table的子标签tr、th、td、img、span 标签都是 table 的后代标签 一般情况下,bbs0bj.body.h1 选择的是 body 标...
2017-09-07 20:16:51 32313 1
原创 HTML 基础(一)
什么是HTML?HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言: HyperText Markup Language HTML 不是一种编程语言,而是一种标记语言 标记语言是一套标记标签 (markup tag) HTML 使用标记标签来描述网页 HTML 文档包含了HTML 标签及文本内容 HTML文档也叫做 web 页面 HTML 标签HTML ...
2017-09-05 16:53:14 379
原创 卷积神经网络的概念入门
最近在机器之心上看到一篇介绍卷积神经网络的文章,非常的直白移动,很有收获,做了以下的整理,也方便自己对cnn的了解1. 机器如何看图?简单来说,每个图像都是一系列特定排序的图点(像素)。如果你改变像素的顺序或颜色,图像也随之改变。举个例子,存储并读取一张上面写着数字 4 的图像。基本上,机器会把图像打碎成像素矩阵,存储每个表示位置像素的颜色码。在下图的表示中,数值 1 是白色,256 是最深的绿色...
2017-09-03 16:21:21 935
原创 Tensorflow 学习笔记——占位符和feed_dict(二)
创建了各种形式的常量和变量后,但TensorFlow 同样还支持占位符。占位符并没有初始值,它只会分配必要的内存。在会话中,占位符可以使用 feed_dict 馈送数据。 feed_dict是一个字典,在字典中需要给出每一个用到的占位符的取值。在训练神经网络时需要每次提供一个批量的训练样本,如果每次迭代选取的数据要通过常量表示,那么TensorFlow 的计算图会非常大。因为每增加一个常量...
2017-09-02 20:52:46 50152 7
原创 Tensorflow 学习笔记——张量、图、常量、变量(一)
1 张量和图TensorFlow是一种采用数据流图(data flow graphs),用于数值计算的开源软件库。其中 Tensor 代表传递的数据为张量(多维数组),Flow 代表使用计算图进行运算。数据流图用「结点」(nodes)和「边」(edges)组成的有向图来描述数学运算。「结点」一般用来表示施加的数学操作,但也可以表示数据输入的起点和输出的终点,或者是读取/写入持久变量(persi...
2017-09-02 20:36:32 5370 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人