- 博客(54)
- 收藏
- 关注

原创 Python爬取前程无忧大数据57000条详细信息看看你到底适合什么?(requests请求-Xpath处理-csv存储)
前程无忧大数据网址:https://search.51job.com/list/000000,000000,0000,00,9,99,%E5%A4%A7%E6%95%B0%E6%8D%AE,2,1.html入口获取所有的大数据相关岗位招聘信息。如从多个招聘网站获取更多招聘信息更好。提取数据项至少包括以下字段:(1)职位名称(岗位名称)、公司名称、 工作地点、薪资(底薪-上限)、发布时间(月-...
2019-06-11 18:43:49
2375
5

原创 Hadoop生态圈(四)超详细Hbase完全分布式搭建!
1. 实验描述本实验要求完成3个节点的HBase集群的安装2. 实验步骤HBase三种安装模式:1.单机模式、伪分布式和完全分布式,本实验演示3个节点的HBase集群的安装部署过程:2.安装HBase集群前提条件:1. 已安装好并启动Hadoop集群; 2.已安装好并启动ZooKeeper集群。在apache官网下载HBase安装包,进行解压安装: 安装包已经存放到/shar...
2019-03-28 21:57:37
1579
2

原创 Hadoop生态圈(二)超详细hadoop完全分布式搭建教程
1.今天分享一下之前搭建hadoop完全分布式时整理的干货,话不多说。2.来看一下搭建规划(1) Hadoop分布式集群规划机器名(hostname) 机器IP 用途 描述:node1 192.168.1.xxx 主节点 64位CentOS7,jdk1.8node2 192.168.1.xxx 从节点1 64位CentOS7,jdk1.8node3 192.168.1.xxx 从节点...
2019-03-28 20:43:58
568
1
原创 Echarts实现柱状图渐变色
源码option={ dataset:{ source:[ ['score','amount','product'], [89,5300,'oppo'], [78,4500,'vivo'], [95,7800,'华为'], [96,8000,'iPhone'], [69,3000,'三星'...
2019-05-24 08:33:13
1056
原创 Tensorflow英文垃圾邮件分类
data_helpers.pyimport numpy as npimport reimport itertoolsfrom collections import Counterdef clean_str(string): """ Tokenization/string cleaning for all datasets except for SST. Ori...
2019-05-17 09:04:29
594
原创 Spark原理
Spark的体系架构:主从架构:主节点:Master作用:接收客户端发送的数据处理的请求,将数据处理任务分配给Worker执行从节点:Worker作用:执行数据处理任务通过浏览器查看spark运行状态:http://主节点主机名:8080Spark架构相关的术语(1) Driver(2) SparkContext(3) Cluster Manager(4) Wo...
2019-05-15 11:00:59
203
原创 python爬取前程无忧招聘网站信息(requests+bs4+xlwt)
import requestsfrom bs4 import BeautifulSoupimport xlwtheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/53...
2019-05-12 21:56:51
1642
2
原创 python爬取前程无忧招聘信息(urllib正则+xlwt)
import urllib.requestimport reimport xlwtdef get_content(page): url='https://search.51job.com/list/120200,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,'+str(page)+'.html'...
2019-05-12 21:53:32
462
原创 pandas_Series基础入门
Series创建import panads as pds_score = pd.Series([80,50,95,96,98],index=["b","c","d","e","f"])访问可以通过一个或多个索引,索引切片以及标签切片来访问(注意:标签切片左右都是闭区间)print(s_score["b"])print(s_score[1])print(s_score[:...
2019-05-10 09:14:21
222
原创 Python实现12306自动抢票(通过Selnium+Chromedriver 附源码)
今天我们来实现12306抢票功能,话不多说直接开撸。我们实现抢票分为六个步骤:让浏览器打开12306的登录界面,然后我们手动进行登陆登录完成后让浏览器跳转到买票的界面手动输入出发地,目的地,日期。通过代码检测我们输入的信息无误后,自动点击查询。查找到我们需要的车次,然后判断对应的车次是否有余票。如果有,自动预定。如果没有,我们就循环这个查询工作。一旦有票,就执行预定操作,来到预定后的...
2019-05-07 20:33:27
3090
1
原创 from selenium import webdriver报错
from selenium import webdriverselenium包已经安装,但是导入时竟然在webdriver报红线。当时我以为是报的问题或者是路径的问题,或者是我下载的selenium与我的python版本不对应。于是我检查了所有可能的问题,但还是不管用。原来是,我这个代码路径下有一个文件是selenium.py导入的时候,pycharm会优先选择我创建的selenium...
2019-05-06 22:25:13
3195
7
原创 爬取前程无忧招聘信息存入Mysql数据库(Requests+Xpath+PyMysql)
今天我们抓取的信息有:职位名,公司名,工作地点和薪资并保存至数据库中1.我们先连接数据库建表import pymysqldef create_table(): db = pymysql.connect(host='localhost',db='qianchengwuyou',user='root',password='wgy@666666',charset='utf8') ...
2019-05-05 13:33:01
1857
2
原创 scrapy模拟登陆github
# -*- coding: utf-8 -*-import scrapyimport reclass GithubSpider(scrapy.Spider): name = 'github' allowed_domains = ['github.com'] start_urls = ['https://github.com/login'] def pars...
2019-05-05 09:15:45
377
原创 Scrapy框架爬取苏宁图书信息
# -*- coding: utf-8 -*-import scrapyfrom SNBook.items import SnbookItemimport reclass SnBookSpider(scrapy.Spider): name = 'sn_book' allowed_domains = ['suning.com'] start_urls = ['ht...
2019-05-05 09:11:47
642
原创 Scrapy框架爬取阳光政务平台数据
# -*- coding: utf-8 -*-import scrapyfrom yangguang.items import YangguangItemfrom yangguang.settings import MONGO_HOSTclass YgSpider(scrapy.Spider): name = 'yg' allowed_domains = ['sun076...
2019-05-05 09:10:19
594
原创 Scrapy框架爬取腾讯招聘信息
# -*- coding: utf-8 -*-import scrapyfrom tencent.items import TencentItemclass HrSpider(scrapy.Spider): name = 'hr' allowed_domains = ['tencent.com'] start_urls = ['http://hr.tencent.c...
2019-05-05 09:07:42
283
原创 巴黎圣母院起火——千万别等一切来不及,再去好好珍惜
当地时间15日,北京时间今天凌晨,有800多年历史的法国巴黎圣母院突发大火。大火从黄昏到午夜,熊熊燃烧五个多小时。标志性尖顶倒塌,巴黎圣母院起火原因或为电线短路。今早起床,看到这一条令人震惊的消息,整个人都觉得不可思议,心情十分沉痛。800多年的历史在大火中燃烧,我看视频的时候,看到大家为巴黎圣母院祷告,他们看到的不仅是圣母院,而是800多年的历史随着大火烟消云散,时间,还是敌不过。千万...
2019-04-16 15:03:44
366
原创 python爬虫实战——前程无忧(requests+xpath+csv)
源码奉上import requestsfrom lxml import etreeimport csvimport pymysql#获取请求def get_response(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Ge...
2019-04-16 14:32:54
1302
1
原创 numpy知识整理
numpy中的nan的注意点两个nan是不相等的利用以上属性可以判断nan的个数nan和任何值进行计算,结果都为nannumpy中常用统计函数
2019-04-14 22:00:35
213
原创 Numpy指定/转换数据类型
指定数据类型在创建数组时添加dtype参数t1 = np.array(range(10),dtype=int8)指定t1的数据类型为int8转换数据类型t2 = t1.astype("bool")
2019-04-11 21:04:15
5556
原创 matplotlib折线图表设置线条颜色、样式、图例样式、位置、添加网格
先来看一下今天的作品实现方法两条折线:plt.plot()绘制图线,通过两次调用绘制两条线。折线样式在plt.plot()中添加color参数设置线段颜色添加linestyle参数设置折线样式plt.figure()中,figsize设置图像大小,dpi设置像素添加网格plt.grid()添加背景网格,alpha参数设置网格透明度(0~1),linestyle参数设置网格...
2019-04-10 12:36:47
12901
原创 Matplotlib中文显示异常解决方案
中文显示异常处理:设置myfont来规定字体from matplotlib import font_managermyfont = font_manager.FontProperties(fname="C:\\Windows\\Fonts\\himalaya.ttf")fname是自己电脑的字体路径,具体寻找方法如下:默认字体存放路径:C:\Users\ls\.matplotlib...
2019-04-09 11:35:01
2028
原创 Using the URLconf defined in test1.urls, Django tried these URL patterns, in this order: ^admin/解决
使用版本:Django2.2 ,运行服务不报错。大体意思是说这样应该就是我们项目的urls文件有问题这是我之前的urls解决办法:把中间的都置空,去掉admin...
2019-04-08 19:56:21
26853
7
原创 Django对数据库中的表进行增删改查
进入python虚拟环境D:\py_env\django_env\Scriptsavtivate进入我们的项目cd test1进入python虚拟命令行python manage.py shell引用一下我们设置的models(注意大小写)from booktest.models import BookInfo生成一个我们BookInfo对象b = BookInfo(...
2019-04-08 10:43:02
297
原创 Django通过模型类创建表
创建好项目后,我们就开始创建表。 先看一下项目的目录结构。进入booktest中的models.py文件中进行创建我们的模型class BookInfo(models.Model): btitle = models.CharField(max_length=20) bpub_date = models.DateField()(不知道为什么我的导包会报红,如果有知道的请私信...
2019-04-08 10:25:01
777
原创 Python创建并运行第一个Django项目(因为这篇博客真的很适合新手)
今天心血来潮,准备做第一个Django项目,但是毕竟新手,最头疼的就是搭环境,Django还需要创建python的虚拟环境,这就更头疼了!不过还好做出来了,现在赶紧写下来,分享给大家。安装虚拟环境管理工具,打开cmd输入以下命令pip install virtualenvwrapper-win配置环境变量我们先在d盘创建一个文件夹叫py_env右击计算机——属性——高级系统设置—...
2019-04-07 10:36:14
669
原创 程序员需要具备的四个素质(今日沉淀 总结 反思)
跟一个好朋友聊了一个小时,发现了很多我自身存在的问题,有一些是之前意识到的但并没有改,也有一些是醍醐灌顶,突然想到的,今天做一个总结,给以后的做事、生活敲响警钟。当然,我说的问题不仅仅局限于程序员所应该具备的素质,普适性很强。1.不要急于求成,时刻以一个学习者的姿态定位自己当你新入职一个公司,初来乍到,对各方面都不了解。即使你出色的完成了你的第一个项目,也不要心高气傲,比你牛逼的人多的是,...
2019-04-06 21:40:37
6158
18
原创 Anaconda下安装Tensorflow和Keras的安装教程
Anaconda3下Tensorflow和Keras的安装说明版本:windows7 64位+python3.6从 https://www.continuum.io/downloads 下载 anaconda, 现在的版本有python2.7版本和python3.6版本,下载好对应版本、对应系统的anaconda,它实际上是一个sh脚本文件。进入网页后选择操作系统windows,然后选...
2019-04-05 16:36:42
34855
8
原创 Pycharm调整代码颜色以及字体样式
File ——>SettingsEditor——>Color Scheme 选择pythonOK啦!选择你们喜欢的配色吧,给无聊的学习时光,加点颜色!
2019-04-04 17:27:14
49820
7
原创 前端学习(三)MUI和Echarts学习指南
MUI关于mui的学习可以去官网查看官方文档,实用性强,用到什么可以直接copy使用,按照自己的样式需求进行完善。mui官方文档:http://dev.dcloud.net.cn/mui/ui/#accordionEchartsEcharts是百度开源的可视化工具,图表类型多种多样,使用方便,直接去官网找案例学习即可。Echarts官网:https://echarts.baidu.co...
2019-04-02 13:59:46
2381
原创 Hadoop生态圈(七)Hive之HQL操作讲解
今天来初步学习一下hive的操作主要内容包括:-hive的访问方法;HQL创建数据库、表和视图的方法4.3 Hive的数据类型介绍Hive的基本数据类型Hive的集合数据类型应用HiveQL完成以下操作创建数据库①创建数据库hivehive> create database hive;查看hive下已有的数据库:hive>Show databases;...
2019-04-02 11:28:34
426
原创 Hadoop生态圈(六)安装包分享(Hadoop、JDK、hive、mysql.jar、hbase、zookeeper)
网盘链接:https://pan.baidu.com/s/1WxDn5TBkNYeZ1UwvGGfSMA提取码:z621如果出现问题,请及时留言。安装包都是现在常用版本的安装包。
2019-04-02 11:19:15
210
原创 Hadoop生态圈(五)Hive的安装部署过程(大赛整理)
今天来分享一下,18年12月份参加大赛整理的Hive安装部署过程,希望对大家能有帮助,如有写的不对的地方,还请大家留言交流。Hive的安装方式介绍: Hive是一个客户端工具,它的安装不分伪分布式还是分布式,通常只需要在主节点上安装Hive即可。Hive根据元数据存储和访问方式不同,分为以下三种安装方式: (1) 内嵌模式:元数据保存在内嵌的derby中,只允许一个会话连接。(2) 本地模...
2019-04-02 11:11:01
253
原创 Centos7_64_Docker安装详细整理
Centos7_64_Docker安装详细整理环境Centos 7_64 3.10.0-957.el7.x86_64Docker version 1.13.1Docker API version 1.26要求Docker要求Centos 7内核版本为3.10以上,64位验证系统版本是否支持Dockeruname -r安装过程1.通过yum直接安装yum -y in...
2019-04-01 11:30:02
642
原创 PythonScrapy框架实战(一)爬取腾讯招聘网信息
今天我们来通过Scrapy爬取腾讯招聘网的信息网站地址:https://hr.tencent.com/position.php拿到一个url我们要先看,我们所需要的信息是否在这个url中。F12查看Elements.找到我们所需要的内容。点击Network——response中查找看看有没有我们所需要的内容我们需要的内容是有的,所以url就是这个了。下面我们开始爬。创建scrap...
2019-03-30 14:05:33
664
原创 Python——Scrapy框架之Logging模块的使用
logging模块的使用Scrapysettings中设置LOG_lEVEL=“WARNING”setting中设置LOG_FILE="./.log"#设置日志保存位置,设置后终端不会显示日志内容import logging实例化logger的方式在任何文件中使用Logger输出内容普通项目中import logging logging,basicConfig(…)#设...
2019-03-30 11:48:16
434
原创 Python——Scrapy框架搭建与创建项目
今天分享一下Scrapy爬虫框架的安装过程。所需环境python3.x配置好pip环境变量安装好pycharm(方便使用)安装步骤1.安装lxml命令: pip install lxml我事先已经安装好了2.安装win32api命令:pip install win32api3.安装twisted下载地址:https://pypi.org/simple/twiste...
2019-03-29 10:27:47
841
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人