2020年06月_魔仙大佬

10月 06月 05月 04月 02月

原创 python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取

爬虫原理和数据抓取1.1 通用爬虫和聚焦爬虫通用爬虫聚焦爬虫1.2 HTTP和HTTPSHTTP的请求与响应浏览器发送HTTP请求的过程：客户端HTTP请求请求方法常用的请求报头服务端HTTP响应Cookie 和 Session：响应状态码常见状态码：HTTP响应状态码参考：1.3 str和bytes的区别bytesbytearray1.4 Requests的简单应用Requests: 让 HTTP 服务人类requests 的底层实现其实就是 urllib安装方式基本GET请求（headers参数和

2020-06-18 11:37:22 7290

原创 python实时招聘信息与岗位分析数据可视化大屏展示（selenium+mysql+flask）

python招聘信息与岗位分析数据可视化第一部分（数据获取）1.数据库表创建2.数据爬取入库3.数据存储与查询第二部分（前端展示）第三部分（flask web应用）首先查看目录树第一部分（数据获取）1.数据库表创建首先通过python的sqlalchemy模块，来新建一个表。creat_lagou_tables.pyfrom sqlalchemy import create_engine, Integer,String,Floatfrom sqlalchemy.orm import ses.

2020-06-04 08:07:16 9103 6

原创 python爬虫从入门到实战笔记——第四章Scrapy框架

推荐阅读：python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取python爬虫从入门到实战笔记——第三章动态HTML处理和机器图像识别第四章Scrapy 框架4.1 Scrapy的安装介绍Windows 安装方式Ubuntu 需要9.10或以上版本安装方式4.2 入门案例一. 新建项目(scrapy startproject)二、明确目标(mySpider/items.py)三、制作爬虫（spiders/itcastS

2020-06-28 14:17:56 1146 1

原创 python爬虫从入门到实战笔记——第三章动态HTML处理和机器图像识别

推荐阅读：python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取三、动态HTML处理和机器图像识别3.1 动态HTML介绍JavaScriptjQueryAjaxDHTML3.2 Selenium与PhantomjsSeleniumPhantomJS快速入门页面操作鼠标动作链填充表单弹窗处理页面切换页面前进和后退Cookies页面等待显式等待隐式等待3.3 selenium+phantomjs案例案例一：模拟豆瓣网站登录案例

2020-06-25 22:24:21 684

原创安装tesseract和pytesseract识别图片出现字符编码UnicodeDecodeError问题

如标题所言，路径和库都安装好了，但是一直报错UnicodeDecodeError: ‘utf-8’ codec can’t decode byte代码如下import pytesseractfrom PIL import Imageif __name__ == '__main__': text = pytesseract.image_to_string(Image.open("data/1.png"),lang="eng") print(text)网上找了很多博客和教程基本上

2020-06-25 19:05:28 2363 2

原创 Git快速入门分布式版本管理——以经理和员工角度学习

git快速入门1 git安装配置1.1 安装1.2 配置2 经理创建2.1 创建仓库2.2 添加ssh账户2.3 克隆项目2.4 创建项目分支2.5 搭建项目框架2.6 上传分支3 员工开发3.1 添加ssh账户生成git密钥3.2 本地克隆3.3 同步分支3.4 开发管理3.5 工作区与暂存区添加撤销3.6 暂存区与仓库区3.7 本地与服务器获取推送合并分支解决冲突项目经理的操作员工助教的操作3.8 历史对比回退3.9 删除3.10 Debug分支4 经理-发布4.1 逐个合并4.2 经理合并4.3 逐个

2020-06-25 15:14:01 212

原创关于phantomjs找不到路径问题（已解决）

错误如下：WebDriverException: Message: ‘phantomjs’ executable needs to be in PATH（已解决）跟着教程做phantomjs+selenium自动爬取的练习代码如下# 导入 webdriverfrom selenium import webdriver# 调用键盘按键操作时需要引入的Keys包from selenium.webdriver.common.keys import Keys# 调用环境变量指定的PhantomJS浏览

2020-06-21 23:12:05 3342

原创 python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取

非结构化数据和结构化数据的提取2.1 正则表达式RE模块什么是正则表达式正则表达式匹配规则Python 的 re 模块re 模块的一般使用步骤如下：compile 函数match 方法search 方法findall 方法finditer 方法split 方法sub 方法匹配中文注意：贪婪模式与非贪婪模式2.2 案例：使用正则表达式的爬虫2.3 Xpath与lxml库什么是XMLXML 和 HTML 的区别XML文档示例HTML DOM 模型示例XML的节点关系1. 父（Parent）2. 子（Childr

2020-06-21 10:34:20 1404

原创 pandas预处理案例——数据分析师招聘数据清洗实战

数据分析师招聘数据清洗实战数据导入并查看重复数据处理异常值处理缺失值处理数据是数据分析师的招聘薪资，主要内容是进行数据读取，数据概述，数据清洗和整理数据获取：链接：https://pan.baidu.com/s/1sSmyiUfkDtVHuJEQP56h3w提取码：okic数据导入并查看首先载入的数据在pandas中，常用的载入函数是read_csv。除此之外还有read_excel和read_table，table可以读取txt。若是服务器相关的部署，则还会用到read_sql，直接访问数据库，

2020-06-18 12:41:31 2085

原创 multiprocessing多线程爬取拉勾网招聘信息（通过sqlalchemy 库创建mysql表）

1.数据库表创建首先通过python的sqlalchemy模块，来新建一个表。creat_lagou_tables.pyfrom sqlalchemy import create_engine, Integer,String,Floatfrom sqlalchemy.orm import sessionmakerfrom sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column#创建数据库

2020-06-08 18:03:17 399

web-Google.txt.gz

谷歌图谱数据集，适合spark进行图计算 # Directed graph (each unordered pair of nodes is saved once): web-Google.txt # Webgraph from the Google programming contest, 2002 # Nodes: 875713 Edges: 5105039 # FromNodeId ToNodeId

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人