- 博客(8)
- 资源 (12)
- 收藏
- 关注
原创 抓取拉勾上游戏公司地址信息,结合百度地图API,生成游戏公司地图。感谢拉勾和百度地图的大力支持。
展示结果如下。说一下制作流程。一、获得公司名称及ID信息,请看下面图。打开Firefox web开发者模式,选择网络标签,在右边框里点击消息头,找到请求网址、请求方法;在参数标签里找到传递的参数;在响应标签里看到返回的JSON数据。请求的时候要伪装一下浏览器,比如headers = { 'Connection': 'Keep-Alive', 'Accep...
2018-06-07 07:50:34 588
原创 正则表达式里的小括号(),组的概念
组在正则表达式里是一个重要概念,用小括号()表示。小括号即是正则表达式的模式;同时它与被括起来的子模式匹配的串匹配,此时小括号就确定了一个被匹配的组。感觉不太好理解,先看下面例子吧。1.前期准备:import re # 加载模块s = 'zvzc zcpython python1234 abcPython' # 字符串2.模式里没有小括号:pattern = re.compile('[Pp]yt...
2018-06-30 21:14:17 13142
原创 正则表达式里\b和\B,Python实例
书上讲的很储蓄,开始没有弄太明白。如果不弄明白,用的时候会非常苦恼。基于此,除了多多理解书本内容,又做了大量实践,总算有点明白了,在此记录一下。一来自己方便查看,二来希望看到此文章的同仁,也能多一点对\b\B的理解。\b,\B是单词边界,不匹配任何实际字符,所以是看不到的;\B是\b的非(补)。\b:表示字母数字与非字母数字字符的边界,非字母数字与字母数字的边界。\B:表示字母数字与(非非)字母数...
2018-06-29 12:51:34 32099 15
原创 拉勾网招聘职位的数据分析 - 数据分析师职位
最近写了一篇关于如何抓取数据的文章,目前没有审核过,通过后再来更新。不过网上有很多关于这块技术的详细操作,只要搜索一下就能找到。现在要说的是拿到数据后,如何处理数据,如何描述数据,如何发现数据中的信息/问题。对数据分析师来说,描述和展示数据,这是基础的一步。如何发现问题,并提出相关建议,最终能把建议落地,这一系列操作,对数据分析师才是挑战。我只获取了北京地区的职位数据,数据如下:一、我想分析以下几...
2018-06-05 10:13:11 1811 1
原创 Python 爬虫抓取拉勾网职位数据,并存入CSV文件
这次把采集的数据存入CSV文件,之前写过把数据存入MySQL数据库的文章,请点击 。一些准备工作,比如职位接口、伪装浏览器及传递参数等信息也请在之前的文章里查看,此处不在重述了。完整代码如下: # -*- coding: utf-8 -*- import pandas as pd#from bs4 import BeautifulSoupimport urllib.request as ...
2018-06-05 00:08:17 2689
原创 Python 爬虫抓取拉勾网职位数据,并存入MySQL数据库
有了技术要经常拿出来用用,不用的话,就会手生。技术的能力就是在学用,学用,学用中慢慢提高的。利用闲暇时间写了一个抓取拉勾网数据的爬虫,闲话不多说直接进入正题。我的开发环境是Windows + Anaconda3(Python 3.6),家用电脑没安装Linux(Linux下也是可以的)。建表语句:CREATE TABLE `lg_position` ( `id` bigint(20) NOT ...
2018-06-04 23:35:40 2319 2
原创 Python 3.6 安装 wordcloud 会提示需要Microsoft Visual C++ 14.0 is required的错误
用pip install wordcloud的时候,提示需要Microsoft Visual C++ 14.0 is required的错误,这时请到https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 这里下载所需的wordcloud模块的whl文件。根据系统平台、位数 及py版本来确定下载哪个文件。...
2018-06-02 20:33:17 498
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人