python
文章平均质量分 91
渡码
公众号「渡码」
展开
-
总结几个简单好用的Python人脸识别算法
介绍4个简单、好用的Python人脸识别算法原创 2022-07-18 08:14:34 · 472 阅读 · 2 评论 -
写爬虫爬了3w条职位数据,看看当前招聘形势 | 开源
最近有不少程序员又开始找工作了,为了了解目前技术类各职位的数量、薪资、招聘公司、岗位职责及要求,我爬取了拉勾网北上广深4个城市的招聘数据,共3w条。职位包括:人工智能(AI)、大数据、数据分析、后端(Java、C|C++、PHP、Python)、前端、Android、iOS、嵌入式和测试。从数据爬取到分析用了两天的时间,不论你是在职状态还是找工作的状态,相信这份数据都会对你有参考价值。另外,在公众号(见文末)回复 职位 即可获得本次分析的源码。1、哪个城市目前招聘的岗位多可以看到,目前北京招聘的原创 2020-05-22 13:21:29 · 680 阅读 · 0 评论 -
学习数据结构和算法的两个利器|良心推荐
数据结构和算法的重要性想必各位在江湖上早就有所耳闻。它对我们最直接的影响就是面试,一般来说,程序员一面都会涉及数据结构和算法知识,尤其是当前找工作比较难的情况下,各个公司会更加重视对候选人基本能力的考察。另外的影响是工作,以我为例,最开始在一家小公司做大数据的时候,由于数据量较大而计算资源不足,所以需要想尽各种办法优化软件的性能。最难解决的问题就是空间搜索效率,当时用了kd-tree这种数据结构,以及最短路径算法(SPFA)。当然大部分情况下像这种常见的算法调用现有的包即可,但有些时候需要结合业务做一些改进原创 2020-05-22 13:19:58 · 399 阅读 · 0 评论 -
5分钟入门pandas
pandas是在数据处理、数据分析以及数据可视化上都有比较多的应用,这篇文章就来介绍一下pandas的入门。劳动节必须得劳动劳动1. 基础用法以下代码在jupyter中运行,Python 版本3.6。首先导入 pandasimport pandas as pd# 为了能在jupyter中展示图表%matplotlib inline# 从csv文件读取数据,也可从excel、json文件中读取# 也可以通过sql从数据库读数据data = pd.read_csv('order_list.c原创 2020-05-22 13:18:48 · 287 阅读 · 0 评论 -
用Python快速实现一个垃圾分类APP|附带微信小程序
最近北京开始实行垃圾分类,导致大家对垃圾的研究热度突然涨高,垃圾们也纷纷表示从来没有获得过这么高的关注度。其实,上海市去年已经开始实行,网上已经有不少成熟的教程了,像什么《垃圾分类从入门到精通》、《深入浅出垃圾分类》、《垃圾分类你应该掌握的10条基本原则》。这种教程如果我们亲自去学显然不符合程序员的个性,作为一个程序员,我们应该把这事儿交给机器来做,这样才能省下更多的时间投入到996中。扯了这么多废话,下面言归正传,今天这篇文章主要介绍如何利用现有的工具来实现一个垃圾分类的应用。这个想法是我昨天才有的,今原创 2020-05-22 13:08:38 · 1411 阅读 · 0 评论 -
分享一个零基础快速爬取数据的工具
今天介绍下如何使用pyppeteer抓取网页的数据。pyppeteer是web应用自动化测试的具,可以直接运行在浏览器中,通过代码控制与页面上元素进行交互,并获取对应的信息。以前我们我们爬取数据都是通过写代码爬取,当待爬取的网站需要登录时,我们需要在代码中模拟登录;当爬取过快需要验证时,我们需要在代码中实现验证逻辑;当ip被封时,还需要有自己的动态ip库。待爬网站的反爬策略越多,我们爬取的成本就越大。总之,用写代码的方式爬取数据需要构造比较复杂的请求,想尽一切办法将爬虫伪装成真实的用户。使用pyppet原创 2020-05-22 13:06:21 · 778 阅读 · 0 评论 -
Trie树-提高海量数据的模糊查询性能
今天这篇文章源于上周在工作中解决的一个实际问题,它是个比较普遍的问题,无论做什么开发,估计都有遇到过。具体是这样的,我们有一份高校的名单(2657个),需要从海量的文章标题中找到包含这些高校的标题,其实就是模糊查询。(关注公众号 渡码,回复关键词 trie 获取完整源代码)对应的伪代码如下selected_titles = []for 标题 in 海量标题: for 高校 in 高校名...原创 2020-04-27 13:33:07 · 512 阅读 · 0 评论