- 博客(9)
- 收藏
- 关注
原创 HIVE综合练习
1、 创建外部表employee,字段为:name,age,city,areacreate external table employee(name string,age int,city string,area string) row format delimited fields terminated by "," location "/data";2、创建分区表pemp,字段同上,分区字段从上述四个字段中选择合适的字段create table pemp(age int,city string
2020-06-11 15:47:02 470
原创 scrapy爬取——mysql存储
我们这里爬取我爱我家http://fang.5i5j.com/bj/loupan/t17n用来做例子MySQL建立一个数据库和需要的表格DROP DATABASE IF EXISTS `cc`; /*``是键盘第二行最左边的键,不是单引号‘*/CREATE DATABASE `cc` default character set=utf8;use `cc`;DROP table IF EXISTS Home;create table Home(Id int(4) PRIMARY KEY
2020-05-14 18:13:12 283
原创 HBase 综合练习
1、创建命名空间cqiecreate_namespace 'cqie'2、创建表student,列族info,course,版本数3create 'cqie:student',{NAME=>'info',VERSIONS=>3},{NAME=>'course',VERSIONS=>3}3、列表显示创建的表List4、显示student的表结构describe 'cqie:student'5、插入数据put 'cqie:student','179001
2020-05-14 17:42:30 1103
原创 scrapy-爬取豆瓣电影排行250
爬取文件这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表start_urls = ['http://movie.douban.com/top250?start='+str(i*25) for i in range(10)]下面可以写你要爬取的东西了from doubanFilm.items import DoubanfilmItemclass DoubanSpider(scrapy.Spider): name = 'doub
2020-05-10 18:16:35 1401
原创 ocr图像文字提取
第一:在cmd也就是命令提示符里为Python下载一些库PIL和pytesseractPIL是在Pillow里所以用以下命令就行了pip install Pillowpip install pytesseract第二:1、安装Tesseract-OCRhttps://pan.baidu.com/s/1q6sZVLPtXDpkUr1bToXLLQ提取码zpwk2...
2020-04-25 21:31:36 646
原创 QQ邮箱模拟登录(密码、头像、QQ邮箱爬取)
密码登录from selenium import webdriver #导入webdriverfrom selenium.webdriver.chrome.options import Options #导入Optionsimport time #导入timeoption = Options()option.add_argument("User-Agent='Mozilla/5.0 (W...
2020-04-21 22:53:32 1419
原创 怎样写和读配置一个文件config.ini
写配置一个config.ini文件import configparser #导入configparser 加载现有配置文件import shelve #导入shelved=shelve.open("G:/im/config.ini") #创建文件config.ini 将对象保存到G:/im/目录下cp = configparser.ConfigParser()# 写入配置文件cp.ad...
2020-04-21 21:10:31 1351
原创 如何安装一个合适的chromedriver.exe并使用它
第一步:搜索在谷歌chrome://version/找到你所需要的版本第二步:查找适合自己的版本http://chromedriver.storage.googleapis.com/index.html点击下载,记住下载路径。第三步:使用chromedriver.exe(以百度为例)from selenium import webdriver #导入 webdriverim...
2020-04-18 17:33:32 1202
原创 无界面浏览器模式selenium
无界面浏览器模式无界面浏览器模式方法一:from selenium.webdriver import Chrome #导入Chromefrom selenium.webdriver.chrome.options import Options #导入Optionsopt = Options()opt.add_argument('--no-sandbox') # 解决 DevToolsAc...
2020-04-18 17:07:01 1376 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人