2024年Python最全练就火眼金睛：Python助你一眼看穿社交媒体中的假新闻！，Python程序员面试必备的知识点

m0_60666841

于 2024-05-03 23:54:58 发布

阅读量695

点赞数 19

分类专栏：程序员文章标签： python 媒体面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60666841/article/details/138428076

版权

程序员专栏收录该内容

197 篇文章 0 订阅

订阅专栏

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

Pip install numpy

接下来，安装Pandas。Pandas将帮助你对数据执行大量操作，例如导入、准备、合并、重塑、连接、处理、分析和调整数据。它是围绕DataFrame对象组织的。运行以下命令：

Pip install pandas

最后，安装项目中最重要的sklearn库。它主要用于机器学习，含有内置的算法，这些算法包括模型选择、模式、聚类、回归和聚类的函数。运行以下命令：

Pip install sklearn

还需要安装JupyterLab。JupyterLab是一个基于web的工具，用于收集Jupyter数据、代码、笔记本。它具有灵活性，可以自定义它来处理机器学习、科学计算和数据科学中的多个工作流。运行以下命令：

Pip install jupyter lab

安装好了之后，可以在命令提示符中输入以下命令：

C:>jupyterlab

浏览器会打开一个新窗口，转到New à Console。勾选文本框，在这里输入你的代码，按Shift + Enter运行你的命令。

使用什么数据集呢？

我们将使用一个包含7796行和4列的大型数据集。这些列表示：

一个标识符
新闻标题
新闻文本
标签（例如，这则新闻是真是假）

从此链接下载数据集：

https://drive.google.com/file/d/1er9NJTLUA3qnRuyhfzuN0XUsoIC4a-_q/view

对社交媒体上的新闻进行事实核查

导入刚刚在JupyterLab控制台中安装的所有库。运行以下代码：

import numpyas ny

importpandas as ps

importitertools

fromsklearn.model_selection import train_test_split

fromsklearn.feature_extraction.text import TfidfVectorizer

fromsklearn.linear_model import PassiveAggressiveClassifier

fromsklearn.metrics import accuracy_score, confusion_matrix

将Excel数据转换为二维数据结构（矩阵），我们需要使用来自pandas的DataFrame，它是一个可以包含异构列的二维数据结构。通过使用shape和head属性可以确定数据集的格式和检查行。运行以下代码：

#Read from the dataset

df=ps.read_csv(‘C:\SocialFactCheckPython\news.csv’)

df.shape

df.head(6)

在这里插入图片描述

接着用DataFrame获得真实和虚假的事实。运行以下代码：

#Check the labels

factcheck=df.label

factcheck.head(7)

在这里插入图片描述

常见任务是将数据集分为两组：培训和测试。

#Split the dataset

a_train,a_test,b_train,b_test=train_test_split(df[‘text’],factcheck, test_size=0.15, random_state=8)

将TF-IDF Vectorizer初始化。设置英文停止词，并指定最大文档频率为0.65。这表示包含较高文档频率的术语将被删除。

过滤出停止词来进行自然语言处理。TF-IDF Vectorizer用于将一组原始文档转换为具有TF-IDF特性的矩阵。随机状态用于指定随机生成的种子，它确保了分割测试集训练集总是确定的。

使用矢量化工具来适应并转换你的训练集和测试集。用.fit_transform学习词汇表和逆文档频率。作为响应，它会创建term-document矩阵。使用.transform可返回一个term-document矩阵。运行以下代码：

tfidf_vectorizer=TfidfVectorizer(stop_words=’english’,max_df=0.65)

tfidf_train=tfidf_vectorizer.fit_transform(a_train)

tfidf_test=tfidf_vectorizer.transform(a_test)

文末有福利领取哦~

👉一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉二、Python必备开发工具

👉三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

👉 四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（文末领读者福利）

👉五、Python练习题

检查学习结果。

👉六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

👉因篇幅有限，仅展示部分资料，这份完整版的Python全套学习资料已经上传

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
2024年Python最全练就火眼金睛：Python助你一眼看穿社交媒体中的假新闻！，Python程序员面试必备的知识点

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

614: 原创

-: 周排名

-: 总排名

40万+: 访问

: 等级

1万+: 积分

6067: 粉丝

8907: 获赞

15: 评论

9065: 收藏

私信

关注

热门文章

分类专栏

最新评论

【专题】python自定义封装logging_python loggeer自定义(1)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
【看了绝对不后悔系列，软件实施以及运维】Windows下运维常用的小技巧(1)
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python每日一练——列表，元组和字典第十三关：字典键值支持的数据类型
Kwan的解忧杂货铺: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
Spark SQL简介及视频教程(2)
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
完全编程0基础，转行学Python，可以学会吗？_真的有人可以一个月学会编程吗(1)
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。