![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PYTHON爬虫
主要包括三部分
part1:Python语言的基础知识
part2:网络爬虫的技术实现
part3:数据可视化的技术应用
疯丰
大数据开发工程师
展开
-
爬虫 wordcloud操作
import jieba #分词from matplotlib import pyplot as plt #绘图from wordcloud import WordCloud #词云from PIL import Image #图片处理import numpy as np #矩阵运算import sqlite3 #数据库#准备词云所需要的文字(词)con = sqlite3.connect('movie.db')cur = con.cursor()s..原创 2022-03-20 17:52:47 · 870 阅读 · 0 评论 -
Anaconda安装jieba方法
描述:jieba不是anaconda里面自带的库,所以需要自己在jieba官网下载安装包步骤一:进入jieba官网:jieba · PyPI,下载jieba包步骤二:把下载好的安装包解压,复制在anaconda软件pkgs文件夹里步骤三:在jieba文件夹路径下输入cmd,进入命令行模式,参考下图步骤四:输入 python setup.py install 即可完成安装。...原创 2022-03-20 15:39:45 · 15997 阅读 · 24 评论 -
Part2_4 Sqlite基础操作
import sqlite3#1.连接数据库 conn = sqlite3.connect("test.db") #打开或创建数据库文件print("Opened database successfully")2.创建数据表 conn = sqlite3.connect("test.db") #打开或创建数据库文件 print("成功打开数据库") c = conn.cursor() #获取游标 sql = ''' create.原创 2022-03-17 09:34:53 · 119 阅读 · 0 评论 -
Part2_3 正则表达式、Excel表格相关操作
正则表达式常用操作符#正则表达式:字符串模式(判断字符串是否符合一定的标准)import re#创建模式对象pat = re.compile("AA") #此处的AA,是正则表达式,用来去验证其他的字符串m = pat.search("ADC") #search字符串被校验的内容m = pat.search("ABAA")m = pat.search("AABAA") #查找出来的字符串以非贪婪模式被找到:只找第一个#没有模式对象m = re.search("a原创 2022-03-15 14:57:08 · 553 阅读 · 0 评论 -
Part2_2 Bs4常见操作
#获取一个get请求response = urllib.request.urlopen("http://www.baidu.com")print(response.read().decode('utf-8')) #对获取到的网页源码进行utf-8解码获取一个post请求import urllib.parsedata = bytes(urllib.parse.urlencode({"hello":"world"}),encoding = "utf-8")reponse = urllib.r.原创 2022-03-14 16:47:24 · 235 阅读 · 0 评论 -
Part2_1 Urllib的get请求和post请求
import urllib.request #获取一个get请求response = urllib.request.urlopen("http://www.baidu.com")print(response.read().decode('utf-8')) #对获取到的网页源码进行utf-8解码#获取一个post请求import urllib.parsedata = bytes(urllib.parse.urlencode({"hello":"world"}),encoding = "u.原创 2022-03-14 16:44:03 · 541 阅读 · 0 评论 -
Part1_1 pycharm的一些基础设置
字体设置file-settings-editor-font程序脚本标题头设置file-settings-file and code templates可复制下面代码贴进去,作相应更改#-*- coding = utf-8 -*-#@Time : ${DATE}${TIME}#@Author: JeffchenITM#@File:${NAME}.py#@Software: ${PRODUCT_NAME}...原创 2022-03-11 13:01:32 · 314 阅读 · 0 评论