爬虫
arlionn
毕业于西安交通大学,现任教于中山大学岭南学院。公众号「连享会 (ID:lianxh_cn)」创办人。
展开
-
Python爬虫:爬取华尔街日报的全部历史文章并翻译
全文阅读:https://www.lianxh.cn/news/e080bab8798f9.html目录爬取华尔街日报的全部历史文章并翻译 1. 获取 Cookies 2. 获取文章列表 2.1 网页分析 2.2 代码 2.3 文章列表 2.4 文章年份分布 2.5 文章主题分布 3. 爬取文章内容 3.1 分析网页 3.2 爬取文章代码 3.3 爬取文章样例 4. 翻译 4.1 翻译文章代码 4.2 翻译文章样例 5. 参考文献 6.转载 2021-10-26 22:45:57 · 500 阅读 · 0 评论 -
Stata爬虫:爬取地区宏观数据
全文阅读:https://lianxh.cn/news/815b934b27073.html目录1. 基本原理 2. 基本步骤 3. 爬虫案例 3.1 网页分析 3.2 请求数据 3.3 读入数据 3.4 处理数据 4. 补充方法 5. 相关推文 1. 基本原理网络爬虫就是自动抓取网页信息的代码,也可以简单理解成代替繁琐的复制粘贴操作的手段。如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物转载 2021-09-20 15:19:59 · 1094 阅读 · 0 评论 -
Stata爬虫:爬取A股公司基本信息
全文阅读:https://lianxh.cn/news/9c1607842eb49.html目录1. 网页分析 2. 数据请求 3. 数据读入 4. 数据处理 5. 补充方法 6. 相关推文 在上一篇中,我们已经讲解了如何爬取「地区宏观数据」。在本文中,我们将以爬取「A股所有公司基本概况一览表」数据为例,讲解如何使用 Stata 进行网页表格数据爬取。 1. 网页分析使用浏览器为 Win10 自带 Microsoft Edge 打开网址; 点击鼠标右键,“审查元素转载 2021-09-20 15:17:25 · 1086 阅读 · 0 评论 -
在VisualStudio(vsCode)中使用正则表达式
原文链接:https://www.lianxh.cn/news/39021047ce624.htmlSource:在 Visual Studio 中使用正则表达式Visual Studio 使用.NET 正则表达式来查找和替换文本。正则表达式示例下表包含一些正则表达式字符、运算符、构造和模式示例。 有关更完整的参考,请参阅正则表达式语言。请参阅正则表达式语言 查找和替换文本原文链接:https://www.lianxh.cn/news/39021047..转载 2021-08-08 16:11:08 · 850 阅读 · 0 评论 -
正则表达式语言-快速参考
原文链接:https://www.lianxh.cn/news/cec14affce188.htmlSource:MS-正则表达式语言 - 快速参考正则表达式是正则表达式引擎尝试匹配输入文本的一种模式。 模式由一个或多个字符文本、运算符或构造组成。 有关简要介绍,请参阅.NET 正则表达式。此快速参考中的每一节都列出了可用于定义正则表达式的字符、运算符和构造的一种特定类别。另请参阅正则表达式 正则表达式类 正则表达式示例原文链接:https://www.li..转载 2021-08-08 16:09:26 · 132 阅读 · 0 评论 -
Stata:正则表达式和文本分析
原文链接:https://www.lianxh.cn/news/2f765cfd4bffe.html目录一. 命令基本语法 二. 基本规则 三. Stata 范例:利用正则表达式爬取豆瓣影评数据 四、总结 参考资料 附录:推文 dofile 合集给你一份公司年报,如何快速地从中找出与数值有关的内容。好朋友让你推荐好看的电影,如何快速地从豆瓣网站下载到每部电影的评分。 这里涉及到的问题就是如何从文本数据中挖掘出所需要的信息。Stata中的字符函数为这一操作的实现提供了..转载 2021-08-08 16:07:01 · 1003 阅读 · 0 评论 -
Python调用API进行地理编码
原文链接:https://www.lianxh.cn/news/b08df4d49099f.html平时在做数据调查的时候,我们往往只能拿到地址信息,并不方便直接进行可视化,那么如何将地址信息转化成我们所熟悉的经纬度坐标在地理信息系统中来进行可视化分析呢?国内的高德、百度等地图服务商们都有提供现成的 API 接口(地理编码服务),方便我们直接调用。本文利用地理编码服务,根据地址名称,实现批量抓取地理坐标数据。用户可通过地理编码可快速查找到各类位置。可搜索的位置类型包括:感兴趣点或地转载 2021-08-04 18:47:42 · 269 阅读 · 0 评论 -
Python调用API进行逆地理编码
原文链接:https://www.lianxh.cn/news/c79e366974316.html上一篇推文中,我们已经介绍过了地理编码,当输入地址而返回坐标时,也就是当我们输入一个建筑物名字或一个地址的时候,地图返回一个点坐标,这个过程叫地理编码;那么反过来,当输入的是点坐标而返回的是一个地址描述,这个过程叫做逆地理编码。实际运用中,地理编码和逆地理编码可以在产业集聚得到很广泛的应用,产业集聚是区域经济发展的一个重要模式。它在全球化的背景下发展起来,是一种地理集聚并在某一特定领域内相互关联的转载 2021-08-04 18:46:13 · 416 阅读 · 0 评论 -
Python调用API爬取百度POI数据
原文链接:https://www.lianxh.cn/news/223fabe3b6724.htmlPOI是“ Point of Interest ”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个 POI 可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI(兴趣点) 数据分类众多,包括美食、购物、旅游景点、政府机构、交通设施等地理信息数据。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来,是一个非常费时费事的工作,而利用 Pyth..转载 2021-08-04 17:48:42 · 824 阅读 · 0 评论 -
Python调用API爬取百度POI数据小贴士——坐标转换、数据清洗与ArcGIS可视化
原文链接:https://www.lianxh.cn/news/a72842993b22b.html上一篇推文中,我们主要介绍了 Python 调用 API 爬取百度 POI 数据的主要操作过程和代码解析。但在实际操作中,还有几个操作事项需要注意,解决完后方可顺利进行 POI 的爬取。所以,这篇推文会就操作过程中的这三个问题和大家一起讨论。百度坐标与 WGS84 坐标的转换 删除爬取的重复数据与处理中文乱码 爬取数据在 ArcGIS 中的可视化1. 非百度坐标的转换在调用百度 A转载 2021-08-04 17:47:11 · 797 阅读 · 0 评论 -
Python:使用正则表达式从文本中定位并提取想要的内容
原文链接:https://www.lianxh.cn/news/7c2e4aed24196.html目录一、问题提出 二、解决思路 三、代码 四、结果 一、问题提出还是年报问询函的研究,需要从问询函文本中提取交易所要求回复的日期,同时还需要从公司回复的文本中提取公司实际上回复的日期。因此需要对两类文本分别进行分析。二、解决思路通过观察,发现问询函中含有交易所要求回复的日期的句子通常是这样的:“请你公司就上述问题做出书面说明,并在 8 月 9 日前将有关说明转载 2021-08-04 17:45:26 · 829 阅读 · 0 评论 -
Python:如何优雅地管理微信数据库?
原文链接:https://www.lianxh.cn/news/d34f09cb214e0.html目录1. 如何找到微信本地缓存数据库存放地址并获取数据库密码 1.1 捷径 1.2 LLDB 调试 1.3 打开数据库并重设密码 2. 本地存储的微信数据库里都有什么? 2.1 微信好友/公众号 2.2 群聊/群成员 2.3 收藏 2.4 聊天记录 3. 如何解析数据库并提取目标信息? 4. 参考链接 最近每天在隔离点蹲着,发现隔离..转载 2021-08-04 17:43:56 · 285 阅读 · 0 评论 -
Python:6小时爬完上交所和深交所的年报问询函
原文链接:https://www.lianxh.cn/news/0e57c635cd225.html目录一、任务描述 二、解决思路 三、网页分析 1. 数据包位置 2. 翻页 3. 下载PDF 4. 深交所网页和上交所网页的区别 四、PDF转TXT 五、核心代码 1. 获取上交所问询函列表 2. 爬取PDF并直接转为TXT 3. 遍历文件夹中所有TXT和DOC文件并生成列表 六、最终爬取结果 主要参考链接昨天开组会的时候导师说想搞..转载 2021-08-04 16:27:15 · 1097 阅读 · 0 评论 -
Python:爬取上市公司公告-Wind-CSMAR
原文链接:https://www.lianxh.cn/news/ca3a4a5b54758.html编者按:自连享会「文本分析与爬虫 - 视频专题课程(4天)」上线以来,小伙伴们根据课程所学,掀起了一波爬虫热潮,先后完成了一系列非常实用的推文,且多数内容都已应用于自己的论文中:「Python: 6 小时爬完上交所和深交所的年报问询函」 「Python爬虫: 《经济研究》研究热点和主题分析」 「Python+微信: 如何优雅地管理微信数据库?」 其他相关推文参见连享会主页-Py..转载 2021-08-01 17:43:25 · 1652 阅读 · 0 评论 -
支持向量机:Stata和Python实现
原文链接:https://www.lianxh.cn/news/4997d62149216.html目录1. SVM 介绍 1.1 SVM 简介 1.2 SVM 基本概念 1.3 SVM 算法特征 1.3 SVM 算法特征 2. SVM 求解过程 3. 核函数 3.1 使用核函数的原因 3.2 常用核函数 3.3 核函数的选择 4. SVM 的 Python 实现 5. SVM 的 Stata 实现 6. 参考文献1. SVM 介绍1.1 S转载 2021-08-01 16:38:58 · 308 阅读 · 0 评论 -
Python+Wind:用Pyautogui轻松下载Wind数据
原文链接:https://www.lianxh.cn/news/4abccd481a8e7.html目录1. 问题背景 2. 准备工作 3. 简单介绍 3.1 Wind 数据库中诸如控股或参股公司该类指标在哪? 3.2 本文示例中用到的 pyautogui 包中相关函数的详细介绍 3.3 获取上市公司股票代码列表 4. 代码实现过程 相关专题连享会 - Python 专题连享会 - 文本分析专题 1. 问题背景Wind 金融终端数据库中有很多转载 2021-07-28 16:54:10 · 577 阅读 · 0 评论 -
高考填志愿:列一份娃娃能去的大学名单
原文链接:https://www.lianxh.cn/news/97f22bc8cea82.html一句话的事:给我你的高考分数与省份,我就能给你一份可报考的高校名单 ^~^ 海哥这两天被各路亲戚朋友「骚扰」…… 干啥?全是天大的事儿!给孩子选学校呀!谁不想把「分数」用足?谁不想稳稳当当? 难呀!辣么多高校,咋选?咋选?没事,这不,海哥有武器呀!弄一段小程序,谈笑间帮你列个清单,都是「私人定制」。 不过,话又说回来了,历史虽然经常重演转载 2021-07-24 18:20:24 · 71 阅读 · 0 评论 -
Python:拆分文件让百万级数据运行速度提高135倍
全文阅读:https://www.lianxh.cn/news/00dd20363b364.html目录一、任务描述 二、数据描述 三、解决思路 四、潜在问题 五、优化思路 六、核心代码(以统计窗口期CAR为例) 七、统计结果样例 语言:Python 方法:拆分文件 目的:提高运行速度一、任务描述对2010年后49083条上市公司股权变更数据(Firm-Event 观测)分别统计每个事件发生前后15天公司:发布的临时公告数 累计超额收益(CAR)全文阅读:h转载 2021-07-16 18:36:32 · 193 阅读 · 0 评论 -
Stata爬虫-正则表达式
全文阅读:https://www.lianxh.cn/news/8c6be3c47d2eb.html目录0. 背景 - A. 爬虫之工具:R,Stata 和 Python B. 本文要干的事儿 1. 网页结构图解分析 1.1 分析网页结构 1.2 编码转换 2. 正则表达式 - 零宽断言 2.1 基本函数 2.2 零宽断言 2.3 应用实例 3. 必胜客餐厅分布信息爬取 3.1 下载 curl 3.2 数据爬取 4. 总结 5. 参考资料连转载 2021-07-06 19:52:11 · 574 阅读 · 0 评论 -
Stata-Python交互-9:将python数据导入Stata
全文阅读:https://www.lianxh.cn/news/929a3cc22307b.html目录1. 导读 2. 实例说明 2.1 下载并处理数据 2.2 拷贝数据到Stata 2.3 作图 3. 参考资料 4. 相关推文1. 导读本文介绍如何使用SFI模块将python数据拷贝到Stata,原文使用python的yfinance模块从Yahoo!Finance网站下载道琼斯工业指数(DJIA)。鉴于国内连接yfinance不太稳定。本文改用pandas_d转载 2021-06-29 17:39:53 · 393 阅读 · 0 评论 -
Stata-Python交互-8:将Stata数据导入Python
全文阅读:https://www.lianxh.cn/news/17c9d76816839.html目录1. 在 Stata 中调用 python 2. 使用 sfi 模块读取 Stata 数据 3. 将数据转换为数据框或字典 4. 将 Stata 数据集完全复制 5. 结论 6. 参考资料 7. 相关推文Stata16 已开发了与 python 交互的功能,本小节我们将介绍如何在 Stata 中调用 python,将 Stata 的数据导入至 python 中。我们熟悉的读取转载 2021-06-29 17:37:25 · 1299 阅读 · 0 评论 -
Stata-Python交互-2:在Stata中调用Python的三种方式
全文阅读:https://www.lianxh.cn/news/290a48d428074.html1. 引言上一期文章介绍了如何下载安装 Python 并设置 Stata 来使用 Python。本期,我们要介绍在 Stata 中使用 Python 的三种方法:以交互方式调用 Python; 在 do 和 ado 文档中运行 Python 代码; 执行 Python 脚本文件。2. 使用方法2.1 以交互方式调用 Python通过在 Stata 的命令窗口中输入python,.转载 2021-06-29 10:32:21 · 1897 阅读 · 0 评论 -
Stata-Python交互-1:二者配合的基本设定
全文阅读:https://www.lianxh.cn/news/285493e301c8a.htmlStata/Python 交互系列推文源自 Stata 公司的统计项目总监Chuck Huber博士发表于 Stata 官网的系列博文,一共 9 篇。较为系统地介绍了 Stata 与 Python 的交互方式,包括:如何配置你的软件、如何实现 Stata 与 Python 数据集互通、如何调用 Python 工具包、如何进行机器学习分析等。Part 1: Setting up Stata t...转载 2021-06-29 10:28:49 · 371 阅读 · 0 评论 -
用正则表达式整理文献:正文与文末一一对应
全文阅读:https://www.lianxh.cn/news/9dd5a865acd9c.html1. 引言一篇规范的学术论文通常由正文、参考文献及图形表格组成。对于参考文献,通常要求其与文章正文部分所列文献一一对应。一篇论文所包含的文献少至一二十篇,多至上百篇,可见参考文献的管理是论文写作过程中的一个重要组成部分。当你写作完成,如何快速核对正文所引文献是否和文后所列参考文献一一对应?论文校稿时,编辑是如何快速发现参考文献存在遗漏或者多余的?如下面这段文字全文阅读:https://转载 2021-06-28 10:34:25 · 392 阅读 · 0 评论 -
连享会-Python爬虫与文本分析专题 (2019.5.17-19)
连享会-Python爬虫与文本分析专题研讨班文章目录连享会-Python爬虫与文本分析专题研讨班1. 课程概况2. 嘉宾简介3. 授课内容3.1 课程介绍为什么要学爬虫和文本分析?为什么要学机器学习算法?为什么要学 Python 语言?我们将学到什么?3.2 课程大纲第 1 讲 Python 基础(3小时)第 2 讲 Python 进阶(3小时)第 3 讲 Python 实现爬虫(3小时)第 ...原创 2019-03-22 15:23:02 · 2963 阅读 · 0 评论