python 数据分析 爬虫 可视化
分享爬虫数据分析可视化实战代码 ,分析自己的技术应用。分享自己做过的项目
甜辣uu
每篇文章底部附博主vx|有问题可以私信!硕士 人工智能AI教学|python项目实战分享 指导本硕毕业论文|sci|中文核心|会议 技术指导|远程部署|调试安装|在线教学
展开
-
网易云歌单爬取
import timeimport randomfrom tqdm import tqdmimport requestsfrom lxml import htmlimport pandas as pdclass Spider_163musicPlayList(object): def __init__(self, playList_num=1000): self.playList_num = playList_num self.website_url.原创 2021-05-23 19:39:08 · 1919 阅读 · 0 评论 -
matplotlib plt 画图
导包:import matplotlib.pyplot as pltimport statsmodels.api as sm import scipy.stats as statsimport pandas as pdimport tushare as tsfrom pylab import *曲线图:sz=pd.read_excel("上证指数.xlsx")sz_high=datasz["high"].valuessz_low=datasz["low"].valuesx..原创 2021-12-28 15:59:58 · 2351 阅读 · 0 评论 -
t-SNE实践——sklearn教程
t-SNE实践——sklearn教程https://blog.csdn.net/hustqb/article/details/80628721原创 2021-04-23 12:22:40 · 2192 阅读 · 0 评论 -
爬虫之美女图片抓取
import requests ,re,json,pandas as pd,timefrom selenium import webdriver #selenium2.48.0 支持phantomjsfrom lxml import etreeimport os,time#表明我是谁??driver=webdriver.PhantomJS(executable_path=r'C:\Users\V\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe'.原创 2021-03-11 14:29:10 · 1897 阅读 · 0 评论 -
爬虫之全书网小说+豆瓣电影
webdriverimport requests,re,json,pandas as pd,timefrom selenium import webdriverfrom lxml import etreedriver=webdriver.PhantomJS(executable_path=r'C:\Users\shengri\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe')url_list=[]for i in range(0,5,..原创 2021-03-11 14:05:32 · 1680 阅读 · 0 评论 -
python中os关于目录创建和文件移动操作
import os, random, shutilpath="images_1"file_name_list = os.listdir(path)print("图片总数目",len(file_name_list ),file_name_list)zu_name=[]for i in file_name_list: zu_name.append(i[:3])zu_name=sorted(list(set(zu_name)))print(len(zu_name),zu_name)t.原创 2022-04-26 15:19:47 · 1645 阅读 · 0 评论 -
道客巴巴爬虫
道客巴巴爬虫原创 2022-04-25 20:10:21 · 1973 阅读 · 0 评论 -
基于LGB、lgb、实现新闻文本分类 有数据代码可以直接运行
基于LGB实现新闻文本分类基于lgb实现新闻文本分类原创 2022-04-23 19:14:49 · 4278 阅读 · 0 评论 -
python常考的面试题
python常考的面试题原创 2022-04-21 19:53:59 · 965 阅读 · 2 评论 -
python入门之 列表 元组 集合 字典 最全教程
python入门之 列表 元组 集合 字典 最全教程python入门之 列表 元组 集合 字典 最全教程原创 2022-04-21 12:01:11 · 318 阅读 · 0 评论 -
论文代码复现:Joint Link Prediction and Network Alignment via Cross-graph Embedding
论文代码复现:Joint Link Prediction and Network Alignment via Cross-graph Embedding原创 2022-04-20 18:50:41 · 768 阅读 · 1 评论 -
向量搜索查询faiss、annoy
首先介绍annoy :Annoy是高维空间求近似最近邻的一个开源库。Annoy构建一棵二叉树,查询时间为O(logn)。Annoy通过随机挑选两个点,并使用垂直于这个点的等距离超平面将集合划分为两部分。如图所示,图中灰色线是连接两个点,超平面是加粗的黑线。按照这个方法在每个子集上迭代进行划分。依此类推,直到每个集合最多剩余k个点,下图是一个k = 10 的情况。 n_trees在构建时提供,并影响构建时间和索引大小。 较大的值将给出更准确的结果,但更大的索引。.原创 2022-04-09 12:48:37 · 743 阅读 · 0 评论 -
公司资质预测
xgboost 分类原创 2021-12-22 19:24:13 · 1731 阅读 · 0 评论 -
Latex Texstudio 使用教程
安装下载自行百度 这里不写了。教学视频值得一看https://www.bilibili.com/video/BV1Yb411p7bY?p=3想显示中文如图 ,如果是想显示英文跟下面一样 。需要配置 编辑器字体的设置一部分模板% 导言区 \documentclass[10pt]{article}% book report letter % [10pt] 用于后边控制字体大小的一个参数 一般只有 10 11 12 \title{Graph}\author{w...原创 2021-07-06 18:31:39 · 3481 阅读 · 0 评论 -
国家电网文章 爬虫 动态生成cookies 难办-------------------------使用selenium爬取瑞数加密网站-----------------------------
import requests, refrom lxml import etreeimport pandas as pdurl = 'http://www.sgcc.com.cn/html/sgcc_main/col2017021449/2021-07/04/20210704085257936855746_1.shtml'headers = { 'Host': 'www.sgcc.com.cn', 'User-Agent': 'Mozilla/5.0 (Windo.原创 2021-07-04 11:47:08 · 4080 阅读 · 1 评论 -
小说爬虫加可视化+ 词云
from collections import Counterimport requests,re,json,pandas as pd,timefrom selenium import webdriverfrom lxml import etreedriver=webdriver.PhantomJS(executable_path=r'C:\Users\wang\Desktop\phantomjs-2.1.1-windows (1)\bin\phantomjs.exe')url_list=[].原创 2021-04-16 21:54:43 · 1934 阅读 · 0 评论 -
cnn卷积详解
卷积 0的卷积不是0 是因为卷积的时候随机加上了偏置参数 如果不设置 偏置参数那么卷积0就是obias=Falseimport numpy as npimport torchtorch.set_default_tensor_type(torch.DoubleTensor)data=np.random.randn(20)data=torch.tensor(data.reshape([1,1,4,5]))print(data)mask=torch.tensor(np.zeros(20))..原创 2021-04-11 21:03:35 · 1881 阅读 · 0 评论 -
显存 参数说明:nvidia-smi 参数说明
链接:https://blog.csdn.net/C_chuxin/article/details/82993350原创 2021-03-16 16:31:14 · 1836 阅读 · 0 评论 -
谷歌gpu使用教程
如果自己找不到谷歌云盘里的写文件的那莪 需要去访问别人的来触发自己的!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!第一步:from google.colab import drivedrive.mount('/content/drive')第二步:with open('/content/drive/My Drive/foo.txt', 'w') as f: f.write('Hello Google Drive!')!cat /content..原创 2021-03-15 20:35:47 · 2055 阅读 · 0 评论 -
ieee 论文爬虫
import requests, json, pandas as pd, re, os, sys, zipfile, time # tqdm是一个进度条模块from tqdm import tqdm # 这个模块需要特别导入进去# vpn账号:账号:201701060914 密码:0315461X# 思路:爬取异步加载的网站,抓到传输数据的包进行下载,在抓到的数据中提取有效的信息。得到pdf地址,进行文章的下载。# number = str(input('请输入会议标记数字:'))# 1..原创 2021-03-11 14:24:32 · 2101 阅读 · 1 评论 -
爬虫之京东5g手机爬虫+谷歌浏览器打开窗口使用
爬取详细书籍数据信息#coding:utf-8 501开始到1010 c=23 1001到1520 c=43 1501到2020 c=63import requests ,re,json,pandas as pd,time,randomfrom selenium import webdriver #selenium===2.48.0 (支持phantomjs)from lxml import etreefrom openpyxl import load_workbookdef dat原创 2021-03-11 14:19:09 · 1898 阅读 · 0 评论