自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 XLA之HloModule“合并”

项目里有这样的一个需求,后端要求将特定模式的的算子融合为传下去。例如下面的HLO计算图,需要将省略部分之间的算子融合为CustomCall。

2024-04-25 23:54:32 322

原创 pytorch-tpu/llama推理优化之input prompt bucketing

数据更新:python脚本(注意分支):HLO图分析KV-Cache更新:KV-Cache作为HLO图的输入输出:bf16[1,2048,32,128]{3,2,1,0} 128x, 2x32x2。

2024-04-01 15:50:31 351

原创 torch-xla在多GPU下NCCL ncclUniqueId的生成过程

生成过程:在rank 0上创建MeshService,也就是GRPC的服务端,每个rank创建一个MeshClient,即GRPC的客户端,客户端通过GRPC请求向服务端获取ncclUniqueId(因为多进程环境,所以请求天然是多线程的,响应也同理,线程安全);由于一个通信组内的请求参数replicas(即rank列表,例如2个rank时:0,1)相同,所以总是得到相同的ncclUniqueId。这是一个典型的ncclUniqueId生成和应用场景。对于不能提供CPU侧通信机制。

2024-03-07 16:28:05 403

原创 torch-xla - op appears to be a view operator, but it has no implementation for the backend “xla:0“

查阅torch-xla issues,2.0版本这些算子没有对应的op lowering(实现)。结合2.0上运行非常慢(耗时~=2.1的几十倍),是否会因此将图拆的很碎?导致慢的真正原因是?测试pytorch-tpu/llama推理时,其模型Attention层在前向时,会多次调用。具体解决参见 MR 4887或2.1版本实现。下面为2.1(左)和2.0(右)的HLO对比。

2023-12-29 22:08:17 444

原创 CentOS7升级内核后,NVIDIA driver出错解决(重新安装)

再次安装时,出现了gcc版本不匹配的问题。由于未安装与kernel相同版本的kernel-devel,导致安装出错。从报错看,应该是NVIDIA driver出错。此时再次安装,成功。

2023-12-29 13:13:23 628

原创 基于XLA_GPU的llama7b推理

docker和conda两种方式均测试OK。

2023-12-25 19:22:23 476

原创 由于CUDA OOM,对XLA(HLO)内存分配过程的一点总结

单卡(A800, 80GB)测试llama7B时出现CUDA OOM,从日志看,是分配preallocated temp allocation时,出现了OOM。

2023-12-20 19:39:40 687

原创 pthread_create返回值错误码11 (EAGAIN)或libgomp: Thread creation failed: Resource temporarily unavailable错误

分析:此主机多用户使用,资源占用非常大,且大多数情况下在docker容器内操作,不容易遇到这类问题(root与非root用户限制不同);且同样的配置下,在docker内,确实也不会出现上述问题。参考ChatGPT给出的方案,注意需要。

2023-12-18 14:40:13 1062

原创 运行torch_xla时,提示找不到cuda相关库(torchvision版本错误)

注意到torchvision,对比docker下的正常环境,发现torchvision版本略有差异,大胆猜测是torchvision导致,直接下手干!

2023-12-16 15:13:30 2116

原创 解决多卡机器CUDA Error Code 802(CUDA_ERROR_SYSTEM_NOT_READY)

解决多卡机器安装完CUDA后,出现802错误码:Fabric Manager需要和Driver具有完全一致的版本号。

2023-12-14 16:11:55 916

原创 Load mlir(mhlo/lmhlo) and execute on GPU

【代码】Load mlir(mhlo/lmhlo) and execute on GPU。

2023-11-30 20:44:41 867

原创 TMP: 利用std::tuple完成运行期的if...else替换

client code:

2023-08-25 15:21:35 94

原创 XLA-mhlo-transpose

HLO在编译期的transpose,常量折叠优化后,从row-major变为了column-major。转换为MHLO后,由于丢弃了layout信息,MHLO沿用row-major,导致运行期出错。

2023-08-10 19:56:13 99

原创 利用指向数据成员的指针实现容器对象数据成员的筛选

【代码】利用指向数据成员的指针实现容器对象数据成员的筛选。

2023-06-19 14:19:37 81

原创 evaluate pre-trained keras ResNet50 on imagenet2012

【代码】evaluate pre-trained keras ResNet50 on imagenet2012。

2023-04-25 19:15:28 351

原创 记一次HEAP CORRUPTION DETECTED问题及解决

一次HEAP CORRUPTION DETECTED问题及解决

2022-08-18 16:33:43 1002

原创 读书笔记系列2:《More Effective C++》

More Effective C++书摘及代码示例

2022-07-21 21:15:03 1079

原创 读书笔记系列1:《C++必知必会》

时间来到2022年4月13日,已过而立,回忆之前的生涯,如过眼浮云,平淡而不知所踪。此刻尝试记录工作和学习中的点滴,就从第一篇读书笔记开始吧。本文是读书笔记系列的第一篇,书名是《C++必知必会》,英文名《C++ Common Knowledge: Essential Intermediate Programming》。......

2022-04-18 11:12:37 618

原创 Unity 自动化构建方案:一键实现版本管理与打包、压缩

个人感觉Unity打包过程有些不人性化,最近受到频繁的Unity打包的困扰,思考有没有类似于AndroidStudio那样的通过动态脚本对打包,升级版本号,及压缩的管理方案,网上搜了一下,有相关的实现方案,拿来修改之后,最终算是实现了项目的打包管理,打包过程简化了不少,脚本如下:using UnityEngine;using UnityEditor;using System;using S...

2019-01-25 10:57:32 4927

原创 Unity使用Mesh组件画圆环

最近项目中有画圆环的需求,这里把代码贴上来。转载请注明出处。效果//调用void Start () { Material material = Resources.Load<Material>("Materials/GreenLine"); DrawUtils.DrawRing(new GameObject(),Vector3.zero,40,1.2f,0.2f,...

2018-10-22 22:55:34 2870

原创 上拉查看详情和下拉隐藏详情

项目商品详情页的需求,实现上拉显示和下拉隐藏详情的功能,最终效果图。核心代码 //上拉组件 @Bind(R.id.xscrollview) XScrollView mXscrollview; @Bind(R.id.scrollContainer) LinearLayout scrollContainer; //下拉组件 @Bind(R.id.sc

2017-05-08 14:05:03 17701 6

原创 使用ViewPager和RecyclerView实现水平分页功能

/** * ght (c) 2007-2017 xxx Inc. All rights reserved. * * @author lzz * Created 2017/5/4 10:07 * @license http://www.xxx.net * @link http://www.xxx.net * @description 推荐商品的ViewPager适配器;带

2017-05-04 11:57:08 4622 2

原创 友盟微博登陆 文件不存在 c8998(有微博客户端),你所访问的站点在微博认证失败,错误号:21322(无微博客户端)

使用精简版友盟微博登录,此为较老版本sdk,无Config.REDIRECT_URL配置,UmengTool.getSignature(activity)也无法使用。1.Application中初始化的appkey和appsecret配置正确2.微博后台正式包应用的包名和签名填写正确3.微博后台启用安全域名sns.whalecloud.com4.微博后台应用高级信息中授权回调页5.项目中正确配置友盟

2017-03-16 14:37:44 3247

原创 addJavascriptInterface

/** * Injects the supplied Java object into this WebView. The object is * injected into the JavaScript context of the main frame, using the * supplied name. This allows the Java object's

2017-03-13 09:42:58 3083

原创 微信登录与package

微信后台申请appid与appkey时,使用的是应用的applicationId。 此时若AndroidManifest文件中的package名称与之不对应,通常分享是没问题的,但是在使用微信登录时会遇到问题。这时,就需要修改R文件及工程的目录结构等。第一步,建立所需包名。如android.xxx.shop第二步,build目录下,按F6将R文件移动到目标package下注意,此时R文件会出现在实

2017-02-27 14:58:53 1745

原创 ScrollView嵌套ListView分页加载

ScrollView嵌套ListView分页加载数据在ListView的onMeasure重写之后,通常所用的setOnScrollListener失去作用,无法监听ListView的滚动事件。 本例通过监听ScrollView滚动到底部,来实现分页加载。package net.xxx.widget;import android.content.Context;import android.ut

2017-01-22 10:32:01 1626

原创 WebStorm12配置react-native运行命令

步骤一步骤二步骤三步骤四步骤五

2016-12-22 21:13:04 2377 2

原创 从图库获取图片的真实格式

从图库获取图片时,服务器提示图片格式不能解析,测试发现是格式的问题,统一写成了xxx.jpg格式,造成部分gif或者png图片无法解析,通过uri可获取图片的真实mime类型public static String getExtensionName(Context context,Uri uri) { Cursor cur = context.getContentResolver()

2016-12-22 13:29:59 1636

翻译 FlexBox学习笔记

FlexBox为弹性盒子布局 (动态伸缩容器),分为伸缩容器(container)和伸缩项目(item)。 FlexBox布局的主体思想是元素可以改变大小以适应可用空间,当可用空间变大,Flex元素将伸展大小以填充可用空间, 当Flex元素超出可用空间时将自动缩小。总之,Flex元素是可以让你的布局根据浏览器的大小变化进行自动伸缩。【上篇】flex container-Properties fo

2016-12-21 00:10:46 571

原创 resolve EditText conflicts in ListView

项目中需要在ListView中为每个Item添加edittext,编辑实体数据的值,此文章解决滚动冲突,键盘弹出、及数据保存。为当前Activity添加windowSoftInputMode=adjustPan…public class ListViewEditTextActivity extends AppCompatActivity { private List<Bean> list =

2016-12-15 09:25:48 331

原创 Cookie配置,及Http过程对话

一、Cookie1.1 Cookie与tokencookie最初是解决http连接无状态的产物,用于客户端和服务端共同维护一些状态数据。cookie会被附加到http请求中,开发者不需要做额外的维护和支持。使用cookie来维持登录态,在实际实现过程中,是在cookie中添加一个token来维持一个登录态。而token通常是验证后的凭证,免除在一定时间内的重复验证,token的存储和传递需要开

2016-11-26 22:32:49 1444

原创 Retrofit

Retrofit Best Practicedependenciescompile 'com.zhy:okhttputils:2.6.2' compile 'com.squareup.retrofit2:retrofit:2.0.0' compile 'com.squareup.retrofit2:converter-gson:2.0.0'encapsulationu can als

2016-11-21 01:07:45 532

原创 Tips

防止在当前Activity中截屏@Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); //防止当前activity内截屏

2016-11-15 22:53:42 270

原创 Android Studio Plugins

ButterKnifecompile ‘com.jakewharton:butterknife:7.0.1’Android Butterknife Zelezny

2016-11-15 09:39:14 435

转载 Enable LogCat on Release Build in Android Studio

solution1:Add android:debuggable=”true” (default is false) to your Manifest inside the tag.From the docs:android:debuggable Whether or not the application can be debugged, even when running on a devi

2016-11-14 18:18:48 541

转载 JavaScript之Array的map()函数

最近在学习JavaScript,var new_array = array.map(func)的一点笔记。看APImap()函数的一句话介绍: The map() method creates a new array with the results of calling a provided function on every element in this array.看一个示例:var nu

2016-11-13 23:26:07 476

原创 Handler和属性动画实现TextView广告轮播效果

/** * 新增显示轮播文字 * * @param apiSpecialItem */ public void showHome8(ApiSpecialItem apiSpecialItem) { String json = apiSpecialItem.getItemData(); final List<ItemDat

2016-11-09 16:43:06 603

转载 手动导入aar依赖

项目原有依赖 compile ‘com.github.wseemann:FFmpegMediaMetadataRetriever:1.0.11’github下载速度太慢,手动下载下来解压缩,得到aar文件:all-fmmr.aar1、将all-fmmr.aar文件复制到project下的libs目录,同jar包。2、在app下的build.gradle下最底层增加repositories {

2016-11-04 17:31:34 792

转载 生成APK文件时的错误

方法数超过64k错误Error:Error converting bytecode to dex: Cause: com.android.dex.DexIndexOverflowException: Cannot merge new index 65875 into a non-jumbo instruction!SOLUTION:android { compileSdkVersion 2

2016-11-04 11:38:57 401

原创 试经_2016

1、Fragment之间传值 /** * Fragment 之间传值的方法 * 1.通过Activity,实现前者的接口,然后向后者传值 * 2.对于动态添加的Fragment,两者之间传值,可以通过Activity得到FragmentManager, * 然后通过findFragmentByTag,得到后者的引用

2016-10-12 19:44:33 446

module-0982.SyncTensorsGraph.9515.sm-8.0-gpu-after-optimizations

D:\Workspace\XLA-GPU CodeGen\streaming_llm\gen2\opt\module_0982.SyncTensorsGraph.9515.sm_8.0_gpu_after_optimizations.txt

2024-06-04

module-0004.SyncTensorsGraph.7578.sm-8.0-gpu-after-optimizations

D:\Workspace\XLA-GPU CodeGen\pytorch-tpu-infer\bucketing128_1\module_0004.SyncTensorsGraph.7578.sm_8.0_gpu_after_optimizations.txt

2024-06-04

指针与内存(PointersAndMemory)

出自斯坦福大学在线cs文档库,指针与内存,对学习指针的使用非常有帮助。

2018-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除